論文の概要: MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.04935v1
- Date: Mon, 06 Oct 2025 15:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.951349
- Title: MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning
- Title(参考訳): MARS:マルチエージェント強化学習によるデュアルシステムディープリサーチの最適化
- Authors: Guoxin Chen, Zile Qiao, Wenqing Wang, Donglei Yu, Xuanzhong Chen, Hao Sun, Minpeng Liao, Kai Fan, Yong Jiang, Penguin Xie, Wayne Xin Zhao, Ruihua Song, Fei Huang,
- Abstract要約: 複雑な推論タスクのための大規模言語モデル(LLM)は、直感的で意図的な認知プロセスを橋渡しする革新的なアプローチを必要とする。
本稿では,Multi-Agent System for Deep ReSearch (MARS)を提案する。
- 参考スコア(独自算出の注目度): 82.14973479594367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) often exhibit a tendency for overanalysis in simple tasks, where the models excessively utilize System 2-type, deliberate reasoning, leading to inefficient token generation. Furthermore, these models face challenges in adapting their reasoning capabilities to rapidly changing environments due to the static nature of their pretraining data. To address these issues, advancing Large Language Models (LLMs) for complex reasoning tasks requires innovative approaches that bridge intuitive and deliberate cognitive processes, akin to human cognition's dual-system dynamic. This paper introduces a Multi-Agent System for Deep ReSearch (MARS) enabling seamless integration of System 1's fast, intuitive thinking with System 2's deliberate reasoning within LLMs. MARS strategically integrates multiple external tools, such as Google Search, Google Scholar, and Python Interpreter, to access up-to-date information and execute complex computations, while creating a specialized division of labor where System 1 efficiently processes and summarizes high-volume external information, providing distilled insights that expand System 2's reasoning context without overwhelming its capacity. Furthermore, we propose a multi-agent reinforcement learning framework extending Group Relative Policy Optimization to simultaneously optimize both systems with multi-turn tool interactions, bin-packing optimization, and sample balancing strategies that enhance collaborative efficiency. Extensive experiments demonstrate MARS achieves substantial improvements of 3.86% on the challenging Humanity's Last Exam (HLE) benchmark and an average gain of 8.9% across 7 knowledge-intensive tasks, validating the effectiveness of our dual-system paradigm for complex reasoning in dynamic information environments.
- Abstract(参考訳): 大規模推論モデル(LRM)は、単純なタスクにおいて過度に分析される傾向があり、そこではモデルが過度にシステム2型、故意の推論を利用し、非効率なトークン生成をもたらす。
さらに、これらのモデルは、事前学習データの静的な性質のため、環境の急速な変化に推論能力を適用する上で、課題に直面している。
これらの問題に対処するために、複雑な推論タスクのために大規模言語モデル(LLM)を前進させるには、人間の認知の二重系力学に似た、直感的で意図的な認知プロセスを橋渡しする革新的なアプローチが必要である。
本稿では,Multi-Agent System for Deep ReSearch (MARS)を提案する。
MARSは、Google Search、Google Scholar、Python Interpreterなどの複数の外部ツールを戦略的に統合し、最新の情報にアクセスし、複雑な計算を実行すると同時に、System 1が効率よく処理し、高ボリュームの外部情報を要約する特別な分業を作成する。
さらに,グループ相対政策最適化を拡張したマルチエージェント強化学習フレームワークを提案する。
大規模な実験により、MARSは挑戦的なHumanityのLast Exam(HLE)ベンチマークで3.86%の大幅な改善を達成し、7つの知識集約タスクで平均8.9%向上し、動的情報環境における複雑な推論のためのデュアルシステムパラダイムの有効性を検証した。
関連論文リスト
- DSADF: Thinking Fast and Slow for Decision Making [18.563568719536033]
RLエージェントと高速かつ直感的な意思決定のためのメモリ空間からなるシステム1と、深く解析的な推論のためのVLMによって駆動されるシステム2の2つの補完モジュールを統合するためのデュアルシステム適応決定フレームワーク(DSADF)を提案する。
論文 参考訳(メタデータ) (2025-05-13T02:58:04Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models [75.4890331763196]
大規模言語モデル(LLM)の最近のブレークスルーは、エージェントAIシステムの出現につながっている。
LLMベースのAgentic RS(LLM-ARS)は、よりインタラクティブで、コンテキストを認識し、プロアクティブなレコメンデーションを提供する。
論文 参考訳(メタデータ) (2025-03-20T22:37:15Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。