論文の概要: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
- arxiv url: http://arxiv.org/abs/2503.13964v1
- Date: Tue, 18 Mar 2025 06:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:10.995374
- Title: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
- Title(参考訳): MDocAgent: 文書理解のためのマルチモーダルマルチエージェントフレームワーク
- Authors: Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao,
- Abstract要約: MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。
本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。
5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
- 参考スコア(独自算出の注目度): 40.52017994491893
- License:
- Abstract: Document Question Answering (DocQA) is a very common task. Existing methods using Large Language Models (LLMs) or Large Vision Language Models (LVLMs) and Retrieval Augmented Generation (RAG) often prioritize information from a single modal, failing to effectively integrate textual and visual cues. These approaches struggle with complex multi-modal reasoning, limiting their performance on real-world documents. We present MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding), a novel RAG and multi-agent framework that leverages both text and image. Our system employs five specialized agents: a general agent, a critical agent, a text agent, an image agent and a summarizing agent. These agents engage in multi-modal context retrieval, combining their individual insights to achieve a more comprehensive understanding of the document's content. This collaborative approach enables the system to synthesize information from both textual and visual components, leading to improved accuracy in question answering. Preliminary experiments on five benchmarks like MMLongBench, LongDocURL demonstrate the effectiveness of our MDocAgent, achieve an average improvement of 12.1% compared to current state-of-the-art method. This work contributes to the development of more robust and comprehensive DocQA systems capable of handling the complexities of real-world documents containing rich textual and visual information. Our data and code are available at https://github.com/aiming-lab/MDocAgent.
- Abstract(参考訳): ドキュメント質問回答(DocQA)は非常に一般的なタスクです。
LLM(Large Language Models)やLVLM(Large Vision Language Models)やRAG(Retrieval Augmented Generation)といった既存の手法では、単一のモーダルから情報を優先することが多く、テキストとビジュアルのキューを効果的に統合することができない。
これらのアプローチは複雑なマルチモーダル推論に苦慮し、実世界の文書のパフォーマンスを制限している。
MDocAgent (Multi-Modal Multi-Agent Framework for Document Understanding)は,テキストと画像の両方を活用する新しいRAGおよびマルチエージェントフレームワークである。
本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。
これらのエージェントは、文書の内容をより包括的に理解するために、個々の洞察を組み合わせてマルチモーダルなコンテキスト検索を行う。
この協調的なアプローチにより、システムはテキストコンポーネントと視覚コンポーネントの両方から情報を合成することができ、質問応答の精度が向上する。
MMLongBenchやLongDocURLのような5つのベンチマークの予備実験では、MDocAgentの有効性が示され、現在の最先端手法と比較して平均12.1%改善された。
この研究は、より堅牢で包括的なDocQAシステムの開発に寄与し、リッチテキストや視覚情報を含む実世界の文書の複雑さを扱うことができる。
私たちのデータとコードはhttps://github.com/aiming-lab/MDocAgent.comで公開されています。
関連論文リスト
- A Multi-Agent Perspective on Modern Information Retrieval [12.228832858396368]
大規模言語モデル(LLM)の台頭は情報検索(IR)の新しい時代をもたらした。
このシフトは、長年にわたるIRパラダイムに挑戦し、理論的なフレームワークと実践的な方法論の両方の再評価を要求する。
我々は、クエリエージェント、ドキュメントエージェント、ランサーエージェント間の複雑な相互作用をよりよく捉えるために、マルチエージェントの視点を提唱する。
論文 参考訳(メタデータ) (2025-02-20T18:17:26Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Doc-Guided Sent2Sent++: A Sent2Sent++ Agent with Doc-Guided memory for Document-level Machine Translation [11.36816954288264]
本稿では,インクリメンタルな文レベル強制デコード戦略を利用するエージェントであるDoc-Guided Sent2Sent++を紹介する。
私たちは、Sent2Sent++が他のメソッドよりも品質、一貫性、レイテンシで優れていることを実証します。
論文 参考訳(メタデータ) (2025-01-15T02:25:35Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。