論文の概要: MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
- arxiv url: http://arxiv.org/abs/2601.12346v1
- Date: Sun, 18 Jan 2026 10:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.588552
- Title: MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
- Title(参考訳): MMDeepResearch-Bench:マルチモーダルディープリサーチエージェントのベンチマーク
- Authors: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang,
- Abstract要約: MMDR-Bench(MMDR-Bench)は、21のドメインにまたがる140の専門的なタスクのベンチマークである。
MMDR-Benchは以前の設定と比較して、明確な証拠を用いたレポートスタイルの合成を強調している。
報告品質のためのF-LLM適応評価(FLAE)、引用的根拠のアライメントのためのTRACE(Trustworthy Retrieval-Aligned Citation Evaluation)、テキスト・視覚的整合性のためのMOSAIC(Multimodal Support-Aligned Integrity Check)を提案する。
- 参考スコア(独自算出の注目度): 37.98503734345155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.
- Abstract(参考訳): Deep Research Agents (DRA) は多段階の検索と合成によって引用に富んだレポートを生成するが、既存のベンチマークは主にテキストのみの設定やショートフォームのマルチモーダルQAをターゲットにしており、エンドツーエンドのマルチモーダルエビデンスを欠いている。
MMDR-Bench(MMDeepResearch-Bench:MMDR-Bench:MMDR-Bench)は、21ドメインにまたがる140の専門的タスクのベンチマークである。
MMDR-Benchは以前の設定と比べ、明確な証拠を用いてレポートスタイルの合成を強調しており、そこではモデルがビジュアルアーティファクトをソースクレームに接続し、物語、引用、視覚的参照の一貫性を維持する必要がある。
さらに,報告品質のためのF-LLM適応評価(FLAE),引用的根拠のアライメントのためのTRACE(Trustworthy Retrieval-Aligned Citation Evaluation),テキスト・視覚的整合性のためのMOSAIC(Multimodal Support-Aligned Integrity Check)を提案する。
25の最先端モデルを対象とした実験では、生成品質、引用規律、マルチモーダル基盤の体系的なトレードオフが示され、強力な散文だけでは忠実な証拠の使用は保証されておらず、マルチモーダル整合性は深層研究機関にとって重要なボトルネックであることを示している。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。
マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。