論文の概要: Reducing Cognitive Load in Multi-Agent Reinforcement Learning for Mathematical Problem Solving: Decoupling Reasoning and Code Generation
- arxiv url: http://arxiv.org/abs/2508.08882v1
- Date: Tue, 12 Aug 2025 12:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.418902
- Title: Reducing Cognitive Load in Multi-Agent Reinforcement Learning for Mathematical Problem Solving: Decoupling Reasoning and Code Generation
- Title(参考訳): 数学的問題解決のためのマルチエージェント強化学習における認知負荷の低減:推論とコード生成のデカップリング
- Authors: Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li,
- Abstract要約: 現在のツール統合数学的推論システムは、しばしば単一エージェントのパラダイムを採用する。
Reasoning Agentは段階的に問題を分解し、Code Agentはコード生成と実行を処理します。
- 参考スコア(独自算出の注目度): 2.7162423139670366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current tool-integrated mathematical reasoning systems often adopt a single-agent paradigm, where one large language model handles problem reasoning, code generation, and code execution in an integrated workflow. While this design eases coordination, we hypothesize that it imposes cognitive load interference, as the agent must interleave long-horizon reasoning with precise program synthesis. We validate this hypothesis through a controlled comparison between a reasoning-only agent and a reasoning-plus-code agent, finding that the latter produces significantly fewer correct reasoning paths despite having tool-calling capabilities. To address this, we propose a dual-agent hybrid framework: a Reasoning Agent performs stepwise problem decomposition, and a Code Agent handles code generation and execution. Training combines imitation learning and reinforcement learning: the Code Agent receives strong rewards for matching intermediate ground-truth programs and weaker rewards for valid execution, while the Reasoning Agent is optimized chiefly via final-answer accuracy using advantage estimation to credit intermediate steps. This decoupled role design reduces cognitive interference and promotes stable reasoning-coding coordination.
- Abstract(参考訳): 現在のツール統合数学的推論システムは、ひとつの大きな言語モデルで問題推論、コード生成、コード実行を統合ワークフローで処理する単一エージェントパラダイムを採用することが多い。
この設計は協調を容易にするが、エージェントが正確なプログラム合成で長い水平推論をインターリーブしなければならないため、認知的負荷干渉を課すという仮説を立てる。
我々は,この仮説を推論専用エージェントと推論+コードエージェントの制御された比較により検証し,ツールコール機能を有するにもかかわらず,後者が精度の低い推論経路を生成することを発見した。
これを解決するために、Reasoning Agentが段階的に問題を分解し、Code Agentがコード生成と実行を処理するという、デュアルエージェントハイブリッドフレームワークを提案する。
トレーニングは模倣学習と強化学習を組み合わせる: Code Agentは、中間的基幹プログラムの整合に対する強い報酬と有効な実行に対する弱い報酬を受け取り、Reasoning Agentは、クレジット中間ステップに対する利点推定を用いて、主にファイナ・アンサーの精度によって最適化される。
この分離された役割設計は、認知的干渉を減少させ、安定した推論と符号化の協調を促進する。
関連論文リスト
- Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning [55.221850286246]
我々は、インターリーブド思考とマルチモーダル・チェーン・オブ・シークレット(CoT)推論を備えたツール統合推論エージェントであるMindWatcherを紹介する。
MindWatcherは、さまざまなツールの呼び出しと使用の調整を自律的に行うことができる。
車、動物、植物を含む8つのカテゴリをカバーする、大規模で高品質な局所画像検索データベースは、堅牢な物体認識モデルを提供する。
論文 参考訳(メタデータ) (2025-12-29T12:16:12Z) - A Flexible Multi-Agent LLM-Human Framework for Fast Human Validated Tool Building [0.8373057326694192]
CollabToolBuilderは、HITL(Expert-in-the-loop)ガイダンスを備えた柔軟なマルチエージェントLLMフレームワークである。
目標を達成するためのツールを反復的に作成し、人間の意図とプロセスに合わせることを学習する。
アーキテクチャは4つの専門エージェントを介してツールを生成し、検証する。
論文 参考訳(メタデータ) (2025-12-01T09:19:18Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios [28.65914611521654]
InfiAgentはピラミッドのようなDAGベースのMulti-Agent Frameworkで、textbfinfiniteのシナリオに適用できる。
InfiAgentはADAS(類似の自動生成エージェントフレームワーク)と比較して9.9%高いパフォーマンスを実現している
論文 参考訳(メタデータ) (2025-09-26T15:44:09Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - Towards Adaptive Software Agents for Debugging [0.40964539027092917]
本稿では,エージェントの数とその役割を動的に決定する適応型エージェント設計を提案する。
最初の評価では、適応設計では、生成されるエージェントの数はバグのあるコードの複雑さに依存することが示されている。
治療効果は, ワンショットプロンプトよりも平均11%改善した。
論文 参考訳(メタデータ) (2025-04-25T12:48:08Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。
DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。