論文の概要: MARDoc: A Memory-Aware Refinement Agent Framework for Multimodal Long Document QA
- arxiv url: http://arxiv.org/abs/2606.05749v1
- Date: Thu, 04 Jun 2026 06:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.591237
- Title: MARDoc: A Memory-Aware Refinement Agent Framework for Multimodal Long Document QA
- Title(参考訳): MARDoc:マルチモーダル文書QAのためのメモリ対応リファインメントエージェントフレームワーク
- Authors: Kaifeng Chen, Hongtao Liu, Qiyao Peng, Jian Yang, Yongqiang Liu, Xiaochen Zhang, Qing Yang,
- Abstract要約: 本稿では,長期文書QAを3つの特殊エージェントに分解するメモリ・アウェア・リファインメント・エージェント・フレームワークを提案する。
イテレーションを通じてエージェントは、完全に蓄積されたインタラクション履歴ではなく、動的に更新された構造化メモリに依存する。
MMLongBench-DocとDocBenchの実験により、MARDocは、同じバックボーンベースラインよりも優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 23.25080415779712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative retrieval-reasoning agents have recently shown promise for multimodal long-document question answering. However, most existing systems maintain a single growing context that mixes retrieval traces, observations, and intermediate reasoning. As interactions accumulate, key evidence becomes scattered and diluted, making multi-hop reasoning noisy. We propose MARDoc, a Memory-Aware Refinement Agent framework that decouples long-document QA into three specialized agents: an Explorer for multi-granularity multimodal retrieval, a Refiner for distilling interaction traces into structured evidence and reasoning memories, and a Reflector for checking evidence sufficiency and providing targeted feedback. Across iterations, the agents rely on a dynamically updated structured memory rather than a full accumulated interaction history. This design reduces context noise while preserving answer-critical facts and their logical dependencies. Experiments on MMLongBench-Doc and DocBench show that MARDoc achieves strong results, outperforming same-backbone baselines and demonstrating the effectiveness of structured memory for agentic document QA.
- Abstract(参考訳): 反復検索推論エージェントは、最近マルチモーダルな長期文書質問応答を約束している。
しかし、既存のシステムのほとんどは、検索トレース、観測、中間的推論を混合した単一の成長コンテキストを維持している。
相互作用が蓄積されると、重要な証拠が散らばって希薄になり、マルチホップ推論ノイズが生じる。
MARDoc, 長期文書QAを3つの特殊エージェントに分解するメモリ・アウェア・リファインメント・エージェント・フレームワークを提案する。
イテレーションを通じてエージェントは、完全に蓄積されたインタラクション履歴ではなく、動的に更新された構造化メモリに依存する。
この設計は、応答クリティカルな事実とその論理的依存関係を保持しながら、コンテキストノイズを低減する。
MMLongBench-DocとDocBenchの実験では、MARDocは、同じバックボーンベースラインを上回り、エージェント文書QAにおける構造化メモリの有効性を示す。
関連論文リスト
- Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation [74.0621258662676]
レポート生成のためのマルチエージェントハーネスであるPtahを提案する。
Ptahは計画、研究、執筆段階を通じて、ユーザクエリからレンダリングされたWebレポートまでのライフサイクルを編成する。
検証エージェントがハーネスの受け入れ機能として機能し、ワークフロー全体を通して事実的接地、引用の忠実性、相互の整合性を強制する。
論文 参考訳(メタデータ) (2026-05-28T12:40:34Z) - Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering [51.19392014547221]
検索型マルチモーダル文書QAは,視覚的にリッチな文書から複雑なマルチモーダル構造を持つ関連情報を識別し,統合することを目的としている。
現在のアプローチは、サージェントなコンテンツを見渡すクエリに依存しないドキュメント表現に依存しています。
本稿では,クエリ適応生成を導入したMultimodal Adaptive Retrieval-Augmented (MARA)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:27:40Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research [31.973886754355547]
Doc-Researcherは、テキストのみ、ビジョンのみ、ハイブリッドパラダイム間のギャップを埋める統一システムである。
マルチモーダル,マルチホップ,マルチドキュメント,マルチターンディープリサーチの最初のベンチマークであるM4DocBenchを紹介する。
Doc-Researcherの精度は50.6%で、最先端のベースラインよりも3.4倍高い。
論文 参考訳(メタデータ) (2025-10-24T16:07:54Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。