論文の概要: M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization?
- arxiv url: http://arxiv.org/abs/2503.21839v1
- Date: Thu, 27 Mar 2025 07:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.422914
- Title: M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization?
- Title(参考訳): M-DocSum:LVLMは文書要約におけるインターリーブ画像テキストを遺伝的に補うか?
- Authors: Haolong Yan, Kaijun Tan, Yeqing Shen, Xin Huang, Zheng Ge, Xiangyu Zhang, Si Li, Daxin Jiang,
- Abstract要約: 本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
- 参考スコア(独自算出の注目度): 49.53982792497275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a critical yet under-explored question in Large Vision-Language Models (LVLMs): Do LVLMs genuinely comprehend interleaved image-text in the document? Existing document understanding benchmarks often assess LVLMs using question-answer formats, which are information-sparse and difficult to guarantee the coverage of long-range dependencies. To address this issue, we introduce a novel and challenging Multimodal Document Summarization Benchmark (M-DocSum-Bench), which comprises 500 high-quality arXiv papers, along with interleaved multimodal summaries aligned with human preferences. M-DocSum-Bench is a reference-based generation task and necessitates the generation of interleaved image-text summaries using provided reference images, thereby simultaneously evaluating capabilities in understanding, reasoning, localization, and summarization within complex multimodal document scenarios. To facilitate this benchmark, we develop an automated framework to construct summaries and propose a fine-grained evaluation method called M-DocEval. Moreover, we further develop a robust summarization baseline, i.e., M-DocSum-7B, by progressive two-stage training with diverse instruction and preference data. The extensive results on our M-DocSum-Bench reveal that the leading LVLMs struggle to maintain coherence and accurately integrate information within long and interleaved contexts, often exhibiting confusion between similar images and a lack of robustness. Notably, M-DocSum-7B achieves state-of-the-art performance compared to larger and closed-source models (including GPT-4o, Gemini Pro, Claude-3.5-Sonnet and Qwen2.5-VL-72B, etc.), demonstrating the potential of LVLMs for improved interleaved image-text understanding. The code, data, and models are available at https://github.com/stepfun-ai/M-DocSum-Bench.
- Abstract(参考訳): LVLM(Large Vision-Language Models:LVLMs):LVLMは文書中のインターリーブ画像文を真に理解しているか?
既存の文書理解ベンチマークでは、情報不足で長距離依存関係のカバレッジを保証するのが難しい質問応答形式を用いてLVLMを評価することが多い。
この問題に対処するために,500の高品質なarXiv論文と,人間の好みに合わせたインターリーブされたマルチモーダル要約からなる,新規で挑戦的なマルチモーダル文書要約ベンチマーク(M-DocSum-Bench)を紹介した。
M-DocSum-Benchは、参照ベースの生成タスクであり、提供された参照画像を用いて、インターリーブされた画像テキストの要約を生成する必要があるため、複雑なマルチモーダル文書シナリオにおける理解、推論、ローカライゼーション、要約の能力を同時に評価する。
このベンチマークを容易にするために,要約を構築するための自動フレームワークを開発し,M-DocEvalと呼ばれるきめ細かい評価手法を提案する。
さらに,多種多様な指導と嗜好データを用いた2段階のプログレッシブトレーニングにより,M-DocSum-7Bという頑健な要約ベースラインをさらに発展させる。
我々のM-DocSum-Benchでの広範な結果から、LVLMはコヒーレンスを維持するのに苦労し、長いコンテキストとインターリーブされたコンテキスト内で情報を正確に統合し、しばしば類似した画像とロバスト性の欠如とを混同していることが明らかとなった。
特に、M-DocSum-7Bは、大規模でクローズドソースモデル(GPT-4o、Gemini Pro、Claude-3.5-Sonnet、Qwen2.5-VL-72Bなど)と比較して最先端のパフォーマンスを実現し、インターリーブされた画像テキスト理解を改善するLVLMの可能性を示している。
コード、データ、モデルはhttps://github.com/stepfun-ai/M-DocSum-Bench.comで入手できる。
関連論文リスト
- MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は、主にテキストのみのコンテンツのための引用を生成することに焦点を当て、マルチモーダルコンテキストの課題と機会を見下ろしている。
MLLMのマルチモーダル引用テキスト生成能力の評価と解析を目的とした,最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。
まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。
実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-01T14:55:06Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding [40.38251904765156]
テキストリッチ文書理解(TDU)では,テキストの内容や複雑なレイアウトを含む文書を包括的に分析する必要がある。
本稿では,TDUに特化して設計されたマルチモーダル言語モデル(MLLM)の効率的なマルチモーダル拡張であるDocLayLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-27T13:13:38Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。