論文の概要: Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation
- arxiv url: http://arxiv.org/abs/2604.10741v2
- Date: Sun, 19 Apr 2026 17:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 19:27:32.381617
- Title: Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation
- Title(参考訳): Deep-Reporter: 接地型マルチモーダルロングフォームジェネレーションのためのディープリサーチ
- Authors: Fangda Ye, Zhifei Xie, Yuxin Hu, Yihang Yin, Shurui Huang, Shikai Dong, Jianzhu Bao, Shuicheng Yan,
- Abstract要約: Deep-Reporterは、接地型マルチモーダル長文生成のための統一されたエージェントフレームワークである。
モデル最適化のために8Kの高品質なエージェントトレースを生成する厳密なキュレーションパイプラインを開発した。
M2LongBenchは9つの領域にわたる247の研究タスクと安定したマルチモーダルサンドボックスからなる総合的なテストベッドである。
- 参考スコア(独自算出の注目度): 42.800747398935044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent agentic search frameworks enable deep research via iterative planning and retrieval, reducing hallucinations and enhancing factual grounding. However, they remain text-centric, overlooking the multimodal evidence that characterizes real-world expert reports. We introduce a pressing task: multimodal long-form generation. Accordingly, we propose Deep-Reporter, a unified agentic framework for grounded multimodal long-form generation. It orchestrates: (i) Agentic Multimodal Search and Filtering to retrieve and filter textual passages and information-dense visuals; (ii) Checklist-Guided Incremental Synthesis to ensure coherent image-text integration and optimal citation placement; and (iii) Recurrent Context Management to balance long-range coherence with local fluency. We develop a rigorous curation pipeline producing 8K high-quality agentic traces for model optimization. We further introduce M2LongBench, a comprehensive testbed comprising 247 research tasks across 9 domains and a stable multimodal sandbox. Extensive experiments demonstrate that long-form multimodal generation is a challenging task, especially in multimodal selection and integration, and effective post-training can bridge the gap.
- Abstract(参考訳): 最近のエージェント検索フレームワークは、反復的な計画と検索、幻覚の低減、事実的根拠の強化による深い研究を可能にする。
しかし、それらはテキスト中心のままであり、現実のエキスパートレポートを特徴づけるマルチモーダルな証拠を見下ろしている。
我々は,マルチモーダル長文生成というプレスタスクを導入する。
そこで我々は, 接地型マルチモーダル長文生成のための統合エージェントフレームワークであるDeep-Reporterを提案する。
オーケストラである。
一 テキストパス及び情報深度ビジュアルの検索及びフィルタリングを行うエージェントマルチモーダル検索及びフィルタリング
(二)コヒーレント画像テキストの統合及び最適な引用配置を確保するためのチェックリスト誘導インクリメンタル合成
三 長距離コヒーレンスと局所流布のバランスをとるためのコンテキスト管理を繰り返すこと。
モデル最適化のために8Kの高品質なエージェントトレースを生成する厳密なキュレーションパイプラインを開発した。
さらに、M2LongBenchは、9つのドメインにまたがる247のリサーチタスクと安定したマルチモーダルサンドボックスからなる総合的なテストベッドである。
大規模な実験により、特にマルチモーダル選択と統合において、長期のマルチモーダル生成が困難な課題であり、効果的なポストトレーニングがギャップを埋めることを示した。
関連論文リスト
- MTA-Agent: An Open Recipe for Multimodal Deep Search Agents [51.180338423927985]
MLLM(Multi-hop large language model)は、視覚的理解において強力な能力を示しているが、複雑な多段階推論において制限されている。
証拠ベースQA合成のためのマルチホップツール拡張エージェント(MTA-Agent)を提案する。
MTA-Agentは、視覚的およびテキストソースから証拠を検索し、検証するためのツールとそのパラメータを自動的に選択する。
論文 参考訳(メタデータ) (2026-04-07T19:01:45Z) - VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning [22.27364585438247]
VSearcherは、マルチモーダル検索エージェントで、現実世界のWeb環境での長時間のマルチターンツールの使用を可能にする。
大規模で複雑なマルチモーダルQA質問を生成するために、反復射出データ合成パイプラインを導入する。
次に、SFT-then-RLトレーニングパイプラインを用いて、ベースマルチモーダルモデルを現実世界のWeb環境におけるマルチターンツール呼び出しが可能なエージェントに変換する。
論文 参考訳(メタデータ) (2026-03-03T09:33:22Z) - WideSeek: Advancing Wide Research via Multi-Agent Scaling [29.02742625120584]
ワイドリサーチ(英: Wide Research)は、複雑な制約の下で複雑な情報を並列に合成・合成するためのパラダイムである。
データパイプラインとエージェント最適化という2つの観点から、ワイドリサーチを深く掘り下げています。
まず、厳密な多相データパイプラインを用いて構築されたベンチマークであるWideSeekBenchを作成し、ターゲット情報ボリュームの多様性を保証する。
第2に,タスク要求に基づいて並列サブエージェントを自律的にフォークできる動的階層型マルチエージェントアーキテクチャであるWideSeekを紹介する。
論文 参考訳(メタデータ) (2026-02-02T18:32:48Z) - MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents [37.98503734345155]
MMDR-Bench(MMDR-Bench)は、21のドメインにまたがる140の専門的なタスクのベンチマークである。
MMDR-Benchは以前の設定と比較して、明確な証拠を用いたレポートスタイルの合成を強調している。
報告品質のためのF-LLM適応評価(FLAE)、引用的根拠のアライメントのためのTRACE(Trustworthy Retrieval-Aligned Citation Evaluation)、テキスト・視覚的整合性のためのMOSAIC(Multimodal Support-Aligned Integrity Check)を提案する。
論文 参考訳(メタデータ) (2026-01-18T10:41:33Z) - M$^3$Searcher: Modular Multimodal Information Seeking Agency with Retrieval-Oriented Reasoning [8.546005018618713]
M$3$Searcherはモジュラーマルチモーダル情報検索エージェントである。
M$3$Searcherは検索指向の多目的報酬で最適化されている。
MMSearchVQAは、検索中心のRLトレーニングをサポートするマルチモーダルマルチホップデータセットである。
論文 参考訳(メタデータ) (2026-01-14T08:27:40Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [93.55219461948529]
PIN(Paired and INterleaved multimodal document)は、視覚とテキストの知識のより深い統合を促進するために設計された、新しいデータフォーマットである。
PIN-200M(2億ドキュメント)とPIN-14M(14百万ドキュメント)の2つの大規模オープンソースデータセットを構築しリリースする。
論文 参考訳(メタデータ) (2024-06-20T01:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。