論文の概要: Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
- arxiv url: http://arxiv.org/abs/2605.29861v2
- Date: Wed, 03 Jun 2026 08:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.557252
- Title: Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
- Title(参考訳): 検証可能なマルチモーダルディープリサーチに向けて:インターリーブレポート生成のためのマルチエージェント・ハーネス
- Authors: Chenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Xiaoxi Li, Zhicheng Dou,
- Abstract要約: レポート生成のためのマルチエージェントハーネスであるPtahを提案する。
Ptahは計画、研究、執筆段階を通じて、ユーザクエリからレンダリングされたWebレポートまでのライフサイクルを編成する。
検証エージェントがハーネスの受け入れ機能として機能し、ワークフロー全体を通して事実的接地、引用の忠実性、相互の整合性を強制する。
- 参考スコア(独自算出の注目度): 74.0621258662676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, which synthesizes scattered evidence into long-form reports. However, verifiable multimodal deep research remains challenging due to open-ended synthesis without deterministic ground truth and the need to interleave textual arguments with visual evidence. We propose Ptah, a multi-agent harness for interleaved report generation. Ptah orchestrates the lifecycle from user query to rendered web report through planning, research, and writing stages, where specialized agents construct visual-aware plans, collect claim-grounded evidence, maintain source-aligned images in a Visual Working Memory, and compose reports through declarative multimodal tool use. A verifier agent serves as the harness's acceptance function, enforcing factual grounding, citation fidelity, and cross-modal consistency throughout the workflow. We further introduce PtahEval, an evaluation protocol that augments existing benchmarks with image-level and presentation-level assessments. Experiments on deep research benchmarks show that Ptah produces more reliable, visually informative, and usable human-facing multimodal reports than strong baselines. Our code is released at https://github.com/SnowNation101/Ptah
- Abstract(参考訳): 大規模言語モデル(LLM)は、詳細な事実の答えを検索するディープサーチから、散在する証拠をロングフォームなレポートに合成するディープリサーチまで、高度な自律エージェントを持っている。
しかし、決定論的根拠のないオープン・エンド・シンセサイザーと、視覚的証拠とテキストの議論をインターリーブする必要があるため、検証可能なマルチモーダル・ディープ・リサーチは依然として困難である。
レポート生成のためのマルチエージェントハーネスであるPtahを提案する。
Ptahは、ユーザクエリからレンダリングされたWebレポートまでのライフサイクルを、計画、調査、執筆段階を通じて編成する。特殊なエージェントが視覚的に認識された計画を構築し、クレームを根拠とした証拠を収集し、Visual Working Memory内のソース整列したイメージを保持し、宣言的なマルチモーダルツールの使用を通じてレポートを構成する。
検証エージェントがハーネスの受け入れ機能として機能し、ワークフロー全体を通して事実的接地、引用の忠実性、相互の整合性を強制する。
さらに、PtahEvalは、既存のベンチマークを画像レベルおよびプレゼンテーションレベルの評価で強化する評価プロトコルである。
ディープ・リサーチ・ベンチマークの実験では、Ptahは強力なベースラインよりも信頼性が高く、視覚的にも有意義で、使用可能なマルチモーダル・レポートを生み出している。
私たちのコードはhttps://github.com/SnowNation101/Ptahでリリースされています。
関連論文リスト
- Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation [42.800747398935044]
Deep-Reporterは、接地型マルチモーダル長文生成のための統一されたエージェントフレームワークである。
モデル最適化のために8Kの高品質なエージェントトレースを生成する厳密なキュレーションパイプラインを開発した。
M2LongBenchは9つの領域にわたる247の研究タスクと安定したマルチモーダルサンドボックスからなる総合的なテストベッドである。
論文 参考訳(メタデータ) (2026-04-12T17:30:44Z) - FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents [37.98503734345155]
MMDR-Bench(MMDR-Bench)は、21のドメインにまたがる140の専門的なタスクのベンチマークである。
MMDR-Benchは以前の設定と比較して、明確な証拠を用いたレポートスタイルの合成を強調している。
報告品質のためのF-LLM適応評価(FLAE)、引用的根拠のアライメントのためのTRACE(Trustworthy Retrieval-Aligned Citation Evaluation)、テキスト・視覚的整合性のためのMOSAIC(Multimodal Support-Aligned Integrity Check)を提案する。
論文 参考訳(メタデータ) (2026-01-18T10:41:33Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。