論文の概要: Deep Research Agents: A Systematic Examination And Roadmap
- arxiv url: http://arxiv.org/abs/2506.18096v1
- Date: Sun, 22 Jun 2025 16:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.746477
- Title: Deep Research Agents: A Systematic Examination And Roadmap
- Title(参考訳): Deep Research Agents: システムテストとロードマップ
- Authors: Yuxuan Huang, Yihang Chen, Haozheng Zhang, Kang Li, Meng Fang, Linyi Yang, Xiaoguang Li, Lifeng Shang, Songcen Xu, Jianye Hao, Kun Shao, Jun Wang,
- Abstract要約: Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
- 参考スコア(独自算出の注目度): 79.04813794804377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Large Language Models (LLMs) has given rise to a new category of autonomous AI systems, referred to as Deep Research (DR) agents. These agents are designed to tackle complex, multi-turn informational research tasks by leveraging a combination of dynamic reasoning, adaptive long-horizon planning, multi-hop information retrieval, iterative tool use, and the generation of structured analytical reports. In this paper, we conduct a detailed analysis of the foundational technologies and architectural components that constitute Deep Research agents. We begin by reviewing information acquisition strategies, contrasting API-based retrieval methods with browser-based exploration. We then examine modular tool-use frameworks, including code execution, multimodal input processing, and the integration of Model Context Protocols (MCPs) to support extensibility and ecosystem development. To systematize existing approaches, we propose a taxonomy that differentiates between static and dynamic workflows, and we classify agent architectures based on planning strategies and agent composition, including single-agent and multi-agent configurations. We also provide a critical evaluation of current benchmarks, highlighting key limitations such as restricted access to external knowledge, sequential execution inefficiencies, and misalignment between evaluation metrics and the practical objectives of DR agents. Finally, we outline open challenges and promising directions for future research. A curated and continuously updated repository of DR agent research is available at: {https://github.com/ai-agents-2030/awesome-deep-research-agent}.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、Deep Research (DR)エージェントと呼ばれる自律型AIシステムの新たなカテゴリを生み出している。
これらのエージェントは、動的推論、適応長軸計画、マルチホップ情報検索、反復ツールの使用、構造化された分析レポートの生成を組み合わせることで、複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,Deep Researchエージェントを構成する基礎技術とアーキテクチャコンポーネントについて,詳細な分析を行う。
我々はまず,APIベースの検索手法とブラウザによる探索とを対比して,情報取得戦略の見直しから始める。
次に、コード実行、マルチモーダル入力処理、拡張性とエコシステム開発をサポートするためのモデルコンテキストプロトコル(MCP)の統合など、モジュール化されたツール使用フレームワークについて検討する。
既存のアプローチを体系化するために,静的ワークフローと動的ワークフローを区別する分類法を提案し,計画戦略とエージェント構成に基づいてエージェントアーキテクチャを分類する。
また、外部知識へのアクセス制限、逐次実行の非効率性、評価指標とDRエージェントの実用的目的の誤調整などの重要な制約を強調し、現在のベンチマークに対する批判的な評価も提供する。
最後に、今後の研究に向けたオープンな課題と有望な方向性について概説する。
DRエージェント研究のキュレートされ、継続的に更新されたリポジトリは、以下の通りである。
関連論文リスト
- Distinguishing Autonomous AI Agents from Collaborative Agentic Systems: A Comprehensive Framework for Understanding Modern Intelligent Architectures [0.0]
大規模言語モデルの出現は、人工知能の2つの異なる相互接続パラダイム、すなわちスタンドアロンAIエージェントと協調エージェントAIエコシステムを触媒した。
本研究は, 運用原則, 構造構成, 配置方法論の体系的解析を通じて, これらのアーキテクチャを識別するための決定的な枠組みを確立する。
論文 参考訳(メタデータ) (2025-06-02T08:52:23Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review [1.4929298667651645]
大規模言語モデルと自律型AIエージェントを評価するベンチマークを2019年から2025年にかけて開発した。
本稿では,知識推論,数学的問題解決,コード生成とソフトウェア工学,事実的根拠と検索,ドメイン固有評価,マルチモーダルおよび具体的タスク,タスクオーケストレーション,インタラクティブアセスメントを対象とする約60のベンチマークの分類法を提案する。
我々は、材料科学、バイオメディカルリサーチ、学術思想、ソフトウェア工学、合成データ生成、数学的問題解決、地理情報システム、マルチメディア、医療、金融における自律型AIエージェントの現実的な応用を提示する。
論文 参考訳(メタデータ) (2025-04-28T11:08:22Z) - A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。
本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。
私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文 参考訳(メタデータ) (2025-03-27T12:50:17Z) - A Multi-Agent Perspective on Modern Information Retrieval [12.228832858396368]
大規模言語モデル(LLM)の台頭は情報検索(IR)の新しい時代をもたらした。
このシフトは、長年にわたるIRパラダイムに挑戦し、理論的なフレームワークと実践的な方法論の両方の再評価を要求する。
我々は、クエリエージェント、ドキュメントエージェント、ランサーエージェント間の複雑な相互作用をよりよく捉えるために、マルチエージェントの視点を提唱する。
論文 参考訳(メタデータ) (2025-02-20T18:17:26Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。