論文の概要: PPTBench: Towards Holistic Evaluation of Large Language Models for PowerPoint Layout and Design Understanding
- arxiv url: http://arxiv.org/abs/2512.02624v1
- Date: Tue, 02 Dec 2025 10:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.829161
- Title: PPTBench: Towards Holistic Evaluation of Large Language Models for PowerPoint Layout and Design Understanding
- Title(参考訳): PPTBench:PowerPointレイアウトと設計理解のための大規模言語モデルの全体的評価を目指して
- Authors: Zheng Huang, Xukai Liu, Tianyu Hu, Kai Zhang, Ye Liu,
- Abstract要約: PowerPointのプレゼンテーションはリッチテキストコンテンツと構造化されたビジュアルレイアウトを組み合わせることで、現代のMLLMのマルチモーダル推論とレイアウト理解能力を評価するための自然なテストベッドとなる。
既存のベンチマークでは、レイアウト中心の課題を見下ろしながら、狭いサブタスクのみに焦点を当てている。
PowerPoint 関連タスク上で LLM を評価するための総合的マルチモーダルベンチマーク PPTBench を紹介する。
- 参考スコア(独自算出の注目度): 14.793139089425836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PowerPoint presentations combine rich textual content with structured visual layouts, making them a natural testbed for evaluating the multimodal reasoning and layout understanding abilities of modern MLLMs. However, existing benchmarks focus solely on narrow subtasks while overlooking layout-centric challenges, which are central to real-world slide creation and editing. To bridge this gap, we introduce PPTBench, a comprehensive multimodal benchmark for evaluating LLMs on PowerPoint-related tasks. Leveraging a diverse source of 958 PPTX files, PPTBench evaluates models across four categories with 4,439 samples, including Detection, Understanding, Modification, and Generation. Our experiments reveal a substantial gap between semantic understanding and visual-layout reasoning in current MLLMs: models can interpret slide content but fail to produce coherent spatial arrangements. Ablation and further analysis show that current MLLMs struggle to combine visual cues with JSON-based layout structures and fail to integrate visual information into their API planning ability. And case studies visually expose systematic layout errors such as misalignment and element overlap. These findings provides a new perspective on evaluating VLLMs in PPT scenarios, highlighting challenges and directions for future research on visual-structural reasoning and coherent slide generation. All datasets and code are fully released to support reproducibility and future research.
- Abstract(参考訳): PowerPointのプレゼンテーションはリッチテキストコンテンツと構造化されたビジュアルレイアウトを組み合わせることで、現代のMLLMのマルチモーダル推論とレイアウト理解能力を評価するための自然なテストベッドとなる。
しかし、既存のベンチマークでは、レイアウト中心の課題を見下ろしながら、狭いサブタスクのみに焦点を当てている。
このギャップを埋めるために,PowerPoint 関連タスク上で LLM を評価するための総合的マルチモーダルベンチマーク PPTBench を導入する。
958のPTXファイルの多様なソースを活用して、PTBenchは、検出、理解、修正、生成を含む4つのカテゴリの4,439のサンプルでモデルを評価する。
本実験は,現在のMLLMにおける意味的理解と視覚的レイアウト推論の間に,大きなギャップを生じさせるものである。
アブレーションとさらなる分析によると、現在のMLLMは、ビジュアルキューとJSONベースのレイアウト構造を組み合わせるのに苦労し、視覚情報をAPI計画能力に統合することができない。
そして、ケーススタディは、ミスアライメントや要素重複のような体系的なレイアウトエラーを視覚的に公開します。
これらの知見は, PPTシナリオにおけるVLLMの評価に関する新たな視点を提供し, 視覚構造推論とコヒーレントスライド生成に関する今後の研究の課題と方向性を明らかにする。
すべてのデータセットとコードは、再現性と将来の研究をサポートするために完全にリリースされている。
関連論文リスト
- Multimodal Continual Learning with MLLMs from Multi-scenario Perspectives [61.64550292163646]
視覚理解における連続学習は,多モーダル大言語モデル(MLLM)における破滅的忘れに対処することを目的としている
我々は、4つの異なるシナリオと視点を含むマルチモーダル視覚理解データセット(MSVQA)を構築した。
MLLMを用いたmUltimodal coNtInual Learningを提案する。
論文 参考訳(メタデータ) (2025-11-23T15:47:49Z) - VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT [0.0]
視覚言語モデル(VLM)は、プレゼンテーションスライドを含むマルチモーダルコンテンツの評価にますます利用されているが、スライド固有の理解はいまだ探索されていない。
VLM-SlideEvalは,(1)真実に整合したスライド画像からの要素レベル抽出,(2)幾何学,スタイル,テキストの摂動制御,(3)シャッフルスライドからデッキの物語順を復元するなど,3つの軸に沿ってVLMを探索する評価フレームワークである。
論文 参考訳(メタデータ) (2025-10-24T22:06:56Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。