論文の概要: MSARL: Decoupling Reasoning and Tool Use with Multi-Small-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.08882v2
- Date: Thu, 28 Aug 2025 09:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:31.648882
- Title: MSARL: Decoupling Reasoning and Tool Use with Multi-Small-Agent Reinforcement Learning
- Title(参考訳): MSARL:マルチスモールエージェント強化学習による推論とツールの分離
- Authors: Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li,
- Abstract要約: ツールの使用から推論を明示的に分離するフレームワークであるMSARLを提案する。
MSARLでは、Reasoning Agentが問題とツール呼び出しを分解し、複数のツールエージェントが特定の外部ツールを専門にしている。
コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 1.974921946982281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multi-agent systems highlight the potential of specialized small agents that collaborate via division of labor. Existing tool-integrated reasoning systems, however, often follow a single-agent paradigm in which one large model interleaves long-horizon reasoning with precise tool operations, leading to cognitive-load interference and unstable coordination. We present MSARL, a Multi-Small-Agent Reinforcement Learning framework that explicitly decouples reasoning from tool use. In MSARL, a Reasoning Agent decomposes problems and plans tool invocations, while multiple Tool Agents specialize in specific external tools, each trained via a combination of imitation learning and reinforcement learning with role-specific rewards. On mathematical problem solving with code execution, MSARL significantly improves reasoning stability and final-answer accuracy over single-agent baselines. Moreover, the architecture generalizes to diverse tool-use tasks, demonstrating that cognitive-role decoupling with small agents is a scalable blueprint for multi-agent AI design.
- Abstract(参考訳): マルチエージェントシステムの最近の進歩は、分業を通じて協力する専門的な小規模エージェントの可能性を浮き彫りにしている。
しかし、既存のツール統合推論システムは、1つの大きなモデルが正確なツール操作で長い水平推論をインターリーブし、認知負荷の干渉と不安定な調整をもたらす、単一エージェントのパラダイムに従うことが多い。
ツールの使用から推論を明示的に分離するマルチスモール・エージェント強化学習フレームワークであるMSARLを提案する。
MSARLでは、推論エージェントが問題を分解し、ツールの実行を計画し、複数のツールエージェントが特定の外部ツールを専門にし、それぞれが模倣学習と強化学習とロール固有の報酬を組み合わせて訓練する。
コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
さらに、アーキテクチャは多様なツール使用タスクに一般化され、認知ロールと小さなエージェントとの分離が、マルチエージェントAI設計のためのスケーラブルな青写真であることを示す。
関連論文リスト
- Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning [55.221850286246]
我々は、インターリーブド思考とマルチモーダル・チェーン・オブ・シークレット(CoT)推論を備えたツール統合推論エージェントであるMindWatcherを紹介する。
MindWatcherは、さまざまなツールの呼び出しと使用の調整を自律的に行うことができる。
車、動物、植物を含む8つのカテゴリをカバーする、大規模で高品質な局所画像検索データベースは、堅牢な物体認識モデルを提供する。
論文 参考訳(メタデータ) (2025-12-29T12:16:12Z) - A Flexible Multi-Agent LLM-Human Framework for Fast Human Validated Tool Building [0.8373057326694192]
CollabToolBuilderは、HITL(Expert-in-the-loop)ガイダンスを備えた柔軟なマルチエージェントLLMフレームワークである。
目標を達成するためのツールを反復的に作成し、人間の意図とプロセスに合わせることを学習する。
アーキテクチャは4つの専門エージェントを介してツールを生成し、検証する。
論文 参考訳(メタデータ) (2025-12-01T09:19:18Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios [28.65914611521654]
InfiAgentはピラミッドのようなDAGベースのMulti-Agent Frameworkで、textbfinfiniteのシナリオに適用できる。
InfiAgentはADAS(類似の自動生成エージェントフレームワーク)と比較して9.9%高いパフォーマンスを実現している
論文 参考訳(メタデータ) (2025-09-26T15:44:09Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - Towards Adaptive Software Agents for Debugging [0.40964539027092917]
本稿では,エージェントの数とその役割を動的に決定する適応型エージェント設計を提案する。
最初の評価では、適応設計では、生成されるエージェントの数はバグのあるコードの複雑さに依存することが示されている。
治療効果は, ワンショットプロンプトよりも平均11%改善した。
論文 参考訳(メタデータ) (2025-04-25T12:48:08Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。
DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。