論文の概要: MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline
- arxiv url: http://arxiv.org/abs/2603.01050v1
- Date: Sun, 01 Mar 2026 11:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.479965
- Title: MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline
- Title(参考訳): MM-DeepResearch: シンプルで効果的なマルチモーダルエージェント検索ベースライン
- Authors: Huanjin Yao, Qixiang Yin, Min Yang, Ziwang Zhao, Yibo Wang, Haotian Luo, Jingyi Zhang, Jiaxing Huang,
- Abstract要約: マルチモーダル・リサーチ・エージェントの開発を目標とし, 明示的な推論と計画, マルチツール・呼び出し, クロスモーダル・インフォメーション・シンセサイザーの実現を目指す。
1)検索集約型マルチモーダルQAデータの不足,(2)効果的な検索トラジェクトリの欠如,(3)オンライン検索APIによるトレーニングの禁止コストの3つの主な課題を考察する。
この3つの設計により,強力なマルチモーダルディープリサーチエージェントであるMM-DeepResearchを開発した。
- 参考スコア(独自算出の注目度): 26.19213349415094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to develop a multimodal research agent capable of explicit reasoning and planning, multi-tool invocation, and cross-modal information synthesis, enabling it to conduct deep research tasks. However, we observe three main challenges in developing such agents: (1) scarcity of search-intensive multimodal QA data, (2) lack of effective search trajectories, and (3) prohibitive cost of training with online search APIs. To tackle them, we first propose Hyper-Search, a hypergraph-based QA generation method that models and connects visual and textual nodes within and across modalities, enabling to generate search-intensive multimodal QA pairs that require invoking various search tools to solve. Second, we introduce DR-TTS, which first decomposes search-involved tasks into several categories according to search tool types, and respectively optimize specialized search tool experts for each tool. It then recomposes tool experts to jointly explore search trajectories via tree search, producing trajectories that successfully solve complex tasks using various search tools. Third, we build an offline search engine supporting multiple search tools, enabling agentic reinforcement learning without using costly online search APIs. With the three designs, we develop MM-DeepResearch, a powerful multimodal deep research agent, and extensive results shows its superiority across benchmarks. Code is available at https://github.com/HJYao00/MM-DeepResearch
- Abstract(参考訳): 本研究では,マルチモーダル・リサーチ・エージェントの開発を目標とし,明確な推論と計画,マルチツール・呼び出し,およびクロスモーダル・インフォメーション・シンセサイティングを実現し,深い研究作業を可能にすることを目的とする。
しかし, 検索集約型マルチモーダルQAデータの不足, 効果的な検索トラジェクトリの欠如, オンライン検索APIによるトレーニングの禁止コストの3つの主な課題を考察した。
そこで我々は,まずハイパーグラフベースのQA生成手法であるHyper-Searchを提案する。この手法は,モダリティ内およびモダリティ内における視覚ノードとテキストノードをモデル化し,接続し,様々な検索ツールの呼び出しを必要とする検索集約型マルチモーダルQAペアを生成する。
第2に,検索ツールの種類に応じて検索関連タスクを複数のカテゴリに分割するDR-TTSを導入し,ツールごとに専門的な検索ツールの専門家を最適化する。
そして、ツール専門家が木探索を通じて共同で探索軌道を探索し、様々な検索ツールを使って複雑なタスクをうまく解決する軌道を生成する。
第三に、複数の検索ツールをサポートするオフライン検索エンジンを構築し、コストのかかるオンライン検索APIを使わずにエージェント強化学習を可能にする。
この3つの設計により,強力なマルチモーダルディープリサーチエージェントであるMM-DeepResearchを開発した。
コードはhttps://github.com/HJYao00/MM-DeepResearchで入手できる。
関連論文リスト
- VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning [22.27364585438247]
VSearcherは、マルチモーダル検索エージェントで、現実世界のWeb環境での長時間のマルチターンツールの使用を可能にする。
大規模で複雑なマルチモーダルQA質問を生成するために、反復射出データ合成パイプラインを導入する。
次に、SFT-then-RLトレーニングパイプラインを用いて、ベースマルチモーダルモデルを現実世界のWeb環境におけるマルチターンツール呼び出しが可能なエージェントに変換する。
論文 参考訳(メタデータ) (2026-03-03T09:33:22Z) - DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent [63.52637950356965]
DeepResearch-9Kは、Deep-Researchシナリオのための大規模で挑戦的なデータセットである。
DeepResearch-R1は、Deep-Researchエージェントのためのオープンソースのトレーニングフレームワークである。
論文 参考訳(メタデータ) (2026-03-01T15:36:10Z) - Revisiting Text Ranking in Deep Research [24.324221566628125]
Black-box Web Search APIは、検索コンポーネントの体系的な分析を妨げる。
我々は、深い研究環境において、IRテキストランキング手法における重要な発見とベストプラクティスの選択を再現する。
論文 参考訳(メタデータ) (2026-02-25T00:18:07Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches [54.65565885083031]
本稿では,階層型RLで学習した階層型エージェントディープ検索フレームワークであるHierSearchを提案する。
低レベルにおいては、ローカルなディープサーチエージェントとWebのディープサーチエージェントがトレーニングされ、対応するドメインから証拠を検索する。
高レベルでは、プランナーエージェントが低レベルのエージェントをコーディネートし、最終回答を提供する。
論文 参考訳(メタデータ) (2025-08-11T15:31:47Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。
ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文 参考訳(メタデータ) (2025-05-23T17:02:02Z) - MindSearch: Mimicking Human Minds Elicits Deep AI Searcher [50.68599514830046]
我々は、Web情報検索と統合における人間の心を模倣するMindSearchを紹介した。
このフレームワークは、シンプルだが効果的なLLMベースのマルチエージェントフレームワークによってインスタンス化できる。
MindSearchは、深さと幅の点でレスポンス品質が大幅に改善されている。
論文 参考訳(メタデータ) (2024-07-29T17:12:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。