論文の概要: O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL
- arxiv url: http://arxiv.org/abs/2601.03743v1
- Date: Wed, 07 Jan 2026 09:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.173508
- Title: O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL
- Title(参考訳): O-Researcher:マルチエージェント蒸留とエージェントRLによるオープンエンドディープリサーチモデル
- Authors: Yi Yao, He Zhu, Piaohong Wang, Jincheng Ren, Xinlong Yang, Qianben Chen, Xiaowan Li, Dingfeng Shi, Jiaxian Li, Qiexiang Wang, Sinuo Wang, Xinpeng Liu, Jiaqi Wu, Minghao Liu, Wangchunshu Zhou,
- Abstract要約: 本稿では,高度で研究段階の指導データの自動合成のための新しいフレームワークを提案する。
当社のアプローチは、複雑なツール統合推論をシミュレートするマルチエージェントワークフローに重点を置いています。
そこで我々は,教師付き微調整と新たな強化学習を融合した2段階学習戦略を開発した。
- 参考スコア(独自算出の注目度): 28.10102994309489
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The performance gap between closed-source and open-source large language models (LLMs) is largely attributed to disparities in access to high-quality training data. To bridge this gap, we introduce a novel framework for the automated synthesis of sophisticated, research-grade instructional data. Our approach centers on a multi-agent workflow where collaborative AI agents simulate complex tool-integrated reasoning to generate diverse and high-fidelity data end-to-end. Leveraging this synthesized data, we develop a two-stage training strategy that integrates supervised fine-tuning with a novel reinforcement learning method, designed to maximize model alignment and capability. Extensive experiments demonstrate that our framework empowers open-source models across multiple scales, enabling them to achieve new state-of-the-art performance on the major deep research benchmark. This work provides a scalable and effective pathway for advancing open-source LLMs without relying on proprietary data or models.
- Abstract(参考訳): クローズドソースとオープンソースの大規模言語モデル(LLM)のパフォーマンスギャップは、主に高品質なトレーニングデータへのアクセスの格差に起因する。
このギャップを埋めるために、洗練された研究グレードの指導データの自動合成のための新しいフレームワークを導入する。
私たちのアプローチは、複雑なツール統合推論をシミュレートして、多種多様な高忠実なデータをエンドツーエンドに生成するマルチエージェントワークフローに重点を置いています。
この合成データを活用することで、教師付き微調整とモデルアライメントと能力の最大化を目的とした新しい強化学習手法を統合した2段階のトレーニング戦略を開発する。
大規模な実験により、我々のフレームワークは、複数のスケールにわたるオープンソースモデルに権限を与え、主要なDeep Researchベンチマークで新しい最先端のパフォーマンスを達成できることを示した。
この作業は、プロプライエタリなデータやモデルに頼ることなく、オープンソースのLLMを前進させるためのスケーラブルで効果的な経路を提供する。
関連論文リスト
- Klear-AgentForge: Forging Agentic Intelligence through Posttraining Scaling [46.593200463657645]
我々は,Klear-Qwen3-AgentForgeという高性能エージェントモデルを学習するための,包括的で完全なオープンソースパイプラインを提案する。
合成データを用いた効率的な教師付き微調整(SFT)とマルチターン強化学習(RL)を併用し,多種多様なエージェントタスクの可能性を解き放つ。
論文 参考訳(メタデータ) (2025-11-08T09:47:27Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Multi-Agent Data Visualization and Narrative Generation [1.935127147843886]
データ分析ワークフローを自動化する軽量なマルチエージェントシステムを提案する。
提案手法は,ハイブリッドマルチエージェントアーキテクチャと決定論的コンポーネントを組み合わせることで,重要な論理を戦略的に外部化する。
このシステムは、完全な再生なしに外科的修正を可能にする、粒度の細かいモジュラー出力を提供する。
論文 参考訳(メタデータ) (2025-08-30T12:39:55Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - GME: Improving Universal Multimodal Retrieval by Multimodal LLMs [43.457928045291915]
Universal Multimodal Retrieval (UMR) は、統一モデルを用いて様々なモダリティを探索することを目的としている。
これまで、テキストデータのみを用いてUMRを実現するためにMLLM(Multimodal large language model)を採用してきた。
論文 参考訳(メタデータ) (2024-12-22T04:40:24Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。