論文の概要: An Open and Reproducible Deep Research Agent for Long-Form Question Answering
- arxiv url: http://arxiv.org/abs/2512.13059v1
- Date: Mon, 15 Dec 2025 07:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.572733
- Title: An Open and Reproducible Deep Research Agent for Long-Form Question Answering
- Title(参考訳): 長期質問応答のためのオープンで再現可能なディープリサーチエージェント
- Authors: Ikuya Yamada, Wataru Ikeda, Ko Yoshida, Mengyu Ye, Hinata Sugimoto, Masatoshi Suzuki, Hisanori Ozaki, Jun Suzuki,
- Abstract要約: 我々は,NeurIPS 2025におけるMMU-RAGコンペティションのテキスト・トゥ・テキスト・トラックにおいて,入賞システムとして選択された長文質問応答のためのオープンディープ・リサーチ・システムを提案する。
このシステムは、オープンソースの大規模言語モデル(LLM)とオープンWeb検索APIを組み合わせて、現実世界のオープンドメイン設定で反復検索、推論、合成を行う。
- 参考スコア(独自算出の注目度): 8.315124732850943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an open deep research system for long-form question answering, selected as a winning system in the text-to-text track of the MMU-RAG competition at NeurIPS 2025. The system combines an open-source large language model (LLM) with an open web search API to perform iterative retrieval, reasoning, and synthesis in real-world open-domain settings. To enhance reasoning quality, we apply preference tuning based on LLM-as-a-judge feedback that evaluates multiple aspects, including clarity, insightfulness, and factuality. Our experimental results show that the proposed method consistently improves answer quality across all three aspects. Our source code is publicly available at https://github.com/efficient-deep-research/efficient-deep-research.
- Abstract(参考訳): 我々は,NeurIPS 2025におけるMMU-RAGコンペティションのテキスト・トゥ・テキスト・トラックにおいて,入賞システムとして選択された長文質問応答のためのオープンディープ・リサーチ・システムを提案する。
このシステムは、オープンソースの大規模言語モデル(LLM)とオープンWeb検索APIを組み合わせて、現実世界のオープンドメイン設定で反復検索、推論、合成を行う。
推論品質を向上させるために,LLM-as-a-judgeフィードバックに基づく選好チューニングを適用し,明瞭さ,洞察力,事実性など,複数の側面を評価する。
実験の結果,提案手法は3つの側面の回答品質を一貫して改善することがわかった。
ソースコードはhttps://github.com/efficient-deep-research/efficient-deep-researchで公開されています。
関連論文リスト
- Understanding DeepResearch via Reports [41.60038455664918]
DeepResearchは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、変革的なAIパラダイムである。
これらのシステムを評価することは、オープンな研究シナリオと、独立した機能に焦点を当てた既存のベンチマークのため、依然として極めて難しい。
DeepResearch-ReportEvalは、DeepResearchシステムを最も代表的なアウトプットで評価するための総合的なフレームワークである。
論文 参考訳(メタデータ) (2025-10-09T07:03:43Z) - DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis [52.636738269442766]
本稿では,生のベンチマークと総合的自動評価フレームワークであるDeepScholar-benchを紹介する。
DeepScholar-benchは、最近の高品質なArXiv論文からクエリを抽出し、真の研究合成タスクにフォーカスしている。
また,LOTUS APIを用いて効率的に実装した参照パイプラインであるDeepScholar-baseを開発した。
論文 参考訳(メタデータ) (2025-08-27T16:36:34Z) - DeepResearch$^{\text{Eco}}$: A Recursive Agentic Workflow for Complex Scientific Question Answering in Ecology [0.0]
DeepResearchは、自動化された科学合成のための新しいエージェントLLMベースのシステムである。
深度制御と広帯域制御によるオリジナルの研究課題の探索を支援する。
DeepResearchは、最大21倍のソース統合を実現している。
論文 参考訳(メタデータ) (2025-07-14T17:47:28Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research [25.368303145176554]
DeepResearchGymはオープンソースのサンドボックスで、検索APIと、ディープリサーチシステムのベンチマークのための厳格な評価プロトコルを組み合わせる。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
論文 参考訳(メタデータ) (2025-05-25T18:16:13Z) - ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。
ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文 参考訳(メタデータ) (2025-05-23T17:02:02Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [94.33978856270268]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。