Fugu-MT 論文翻訳(概要): Reducing Cognitive Load in Multi-Agent Reinforcement Learning for Mathematical Problem Solving: Decoupling Reasoning and Code Generation

論文の概要: Reducing Cognitive Load in Multi-Agent Reinforcement Learning for Mathematical Problem Solving: Decoupling Reasoning and Code Generation

arxiv url: http://arxiv.org/abs/2508.08882v1
Date: Tue, 12 Aug 2025 12:10:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-13 21:07:34.418902
Title: Reducing Cognitive Load in Multi-Agent Reinforcement Learning for Mathematical Problem Solving: Decoupling Reasoning and Code Generation
Title（参考訳）: 数学的問題解決のためのマルチエージェント強化学習における認知負荷の低減:推論とコード生成のデカップリング
Authors: Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li,
Abstract要約: 現在のツール統合数学的推論システムは、しばしば単一エージェントのパラダイムを採用する。 Reasoning Agentは段階的に問題を分解し、Code Agentはコード生成と実行を処理します。
参考スコア（独自算出の注目度）: 2.7162423139670366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current tool-integrated mathematical reasoning systems often adopt a single-agent paradigm, where one large language model handles problem reasoning, code generation, and code execution in an integrated workflow. While this design eases coordination, we hypothesize that it imposes cognitive load interference, as the agent must interleave long-horizon reasoning with precise program synthesis. We validate this hypothesis through a controlled comparison between a reasoning-only agent and a reasoning-plus-code agent, finding that the latter produces significantly fewer correct reasoning paths despite having tool-calling capabilities. To address this, we propose a dual-agent hybrid framework: a Reasoning Agent performs stepwise problem decomposition, and a Code Agent handles code generation and execution. Training combines imitation learning and reinforcement learning: the Code Agent receives strong rewards for matching intermediate ground-truth programs and weaker rewards for valid execution, while the Reasoning Agent is optimized chiefly via final-answer accuracy using advantage estimation to credit intermediate steps. This decoupled role design reduces cognitive interference and promotes stable reasoning-coding coordination.
Abstract（参考訳）: 現在のツール統合数学的推論システムは、ひとつの大きな言語モデルで問題推論、コード生成、コード実行を統合ワークフローで処理する単一エージェントパラダイムを採用することが多い。この設計は協調を容易にするが、エージェントが正確なプログラム合成で長い水平推論をインターリーブしなければならないため、認知的負荷干渉を課すという仮説を立てる。我々は,この仮説を推論専用エージェントと推論+コードエージェントの制御された比較により検証し,ツールコール機能を有するにもかかわらず,後者が精度の低い推論経路を生成することを発見した。これを解決するために、Reasoning Agentが段階的に問題を分解し、Code Agentがコード生成と実行を処理するという、デュアルエージェントハイブリッドフレームワークを提案する。トレーニングは模倣学習と強化学習を組み合わせる: Code Agentは、中間的基幹プログラムの整合に対する強い報酬と有効な実行に対する弱い報酬を受け取り、Reasoning Agentは、クレジット中間ステップに対する利点推定を用いて、主にファイナ・アンサーの精度によって最適化される。この分離された役割設計は、認知的干渉を減少させ、安定した推論と符号化の協調を促進する。

関連論文リスト

PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文参考訳（メタデータ） (2025-05-26T15:05:18Z)
Towards Adaptive Software Agents for Debugging [0.40964539027092917]
本稿では,エージェントの数とその役割を動的に決定する適応型エージェント設計を提案する。最初の評価では、適応設計では、生成されるエージェントの数はバグのあるコードの複雑さに依存することが示されている。治療効果は, ワンショットプロンプトよりも平均11%改善した。
論文参考訳（メタデータ） (2025-04-25T12:48:08Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。 DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文参考訳（メタデータ） (2025-02-07T04:08:46Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。提案手法は,従来の検証手法に比べて2～3倍の効率を維持しつつ,大幅な精度向上(8～11%)を実現している。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。