論文の概要: VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT
- arxiv url: http://arxiv.org/abs/2510.22045v1
- Date: Fri, 24 Oct 2025 22:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.935315
- Title: VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT
- Title(参考訳): VLM-SlideEval:PPTの構造的理解と摂動感度に関するVLMの評価
- Authors: Hyeonsu Kang, Emily Bao, Anjan Goswami,
- Abstract要約: 視覚言語モデル(VLM)は、プレゼンテーションスライドを含むマルチモーダルコンテンツの評価にますます利用されているが、スライド固有の理解はいまだ探索されていない。
VLM-SlideEvalは,(1)真実に整合したスライド画像からの要素レベル抽出,(2)幾何学,スタイル,テキストの摂動制御,(3)シャッフルスライドからデッキの物語順を復元するなど,3つの軸に沿ってVLMを探索する評価フレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly used to evaluate multimodal content, including presentation slides, yet their slide-specific understanding remains underexplored {despite their growing role as critics in agentic, model-forward pipelines}. We introduce VLM-SlideEval, an evaluation framework that probes VLMs along three axes: (1) element-level extraction from slide images aligned to ground truth; (2) robustness to controlled perturbations in geometry, style, and text; and (3) higher-level comprehension, such as recovering a deck's narrative order from shuffled slides. Using publicly available decks from Zenodo (https://huggingface.co/datasets/Forceless/Zenodo10K/viewer/default/pptx), we standardize ground-truth element metadata from PowerPoint XML and live renderings into a unified, verifiable schema. Empirically, VLMs underperform on pixel-accurate extraction and show non-trivial agreement, fidelity, and consistency under controlled perturbations, while performing better on single-slide content understanding; however, they do not reliably capture narrative structure across slides. These results highlight the limits of current VLMs for slide evaluation and motivate calibrated, critic-in-the-loop evaluators that drive iterative refinement and selection in agentic pipelines.
- Abstract(参考訳): 視覚言語モデル(VLM)は、プレゼンテーションスライドを含むマルチモーダルコンテンツの評価にますます利用されているが、スライド固有の理解は、エージェント的、モデルフォワードパイプラインの批判者としての役割が増大しているにもかかわらず、まだ探索されていない。
VLM-SlideEvalは,(1)真実に整合したスライド画像からの要素レベル抽出,(2)幾何学,スタイル,テキストの摂動制御に対する堅牢性,(3)シャッフルスライドからデッキの物語順を復元するなど,3つの軸に沿ってVLMを探索する評価フレームワークである。
Zenodo(https://huggingface.co/datasets/Forceless/Zenodo10K/viewer/default/pptx)の公開デッキを使用して、PowerPoint XMLとライブレンダリングの地味な要素メタデータを統一的で検証可能なスキーマに標準化します。
経験的には、VLMは画素精度の抽出に過小評価され、制御された摂動下での非自明な一致、忠実さ、一貫性が示され、一方、単一スライドのコンテンツ理解では優れた性能を発揮するが、スライド間の物語構造を確実に捉えることはできない。
これらの結果から, エージェントパイプラインの繰り返し改良と選択を駆動する, キャリブレート・イン・ループ評価のための現在のVLMの限界を浮き彫りにした。
関連論文リスト
- Through the Perspective of LiDAR: A Feature-Enriched and Uncertainty-Aware Annotation Pipeline for Terrestrial Point Cloud Segmentation [5.173182375745059]
地上レーザー走査(TLS)点雲の正確なセマンティックセマンティックセマンティクスは、高価な手動アノテーションによって制限される。
球面投影,特徴強調,アンサンブル学習,ターゲットアノテーションを統合した半自動不確実性対応パイプラインを提案する。
提案手法は,2次元球面格子を投影し,マルチソース特徴量で画素を拡大し,擬似ラベルと不確実性マップを生成するためにセグメンテーションネットワークのアンサンブルを訓練する。
論文 参考訳(メタデータ) (2025-10-08T02:25:59Z) - On the Reliability of Vision-Language Models Under Adversarial Frequency-Domain Perturbations [53.611451075703314]
VLM(Vision-Language Models)は、視覚コンテンツ推論のための知覚モジュールとして使われることが多い。
これらの特徴変換が,画像の自動キャプションタスクの信頼度/ディープフェイク検出にどのような影響を及ぼすかを示す。
論文 参考訳(メタデータ) (2025-07-30T05:41:29Z) - Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing [28.792459459465515]
本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
論文 参考訳(メタデータ) (2025-05-16T18:12:26Z) - Presentations are not always linear! GNN meets LLM for Document-to-Presentation Transformation with Attribution [21.473482276335194]
このような非線形なコンテンツマッピングをスライドに組み込むことは困難であり、その内容が文書に忠実であることを保証することは困難である。
入力文書からグラフを学習し,グラフニューラルネットワークとLLMを組み合わせてプレゼンテーションを生成する,新しいグラフベースソリューションを提案する。
論文 参考訳(メタデータ) (2024-05-21T13:52:33Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。