論文の概要: Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning
- arxiv url: http://arxiv.org/abs/2602.00994v1
- Date: Sun, 01 Feb 2026 03:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.511909
- Title: Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning
- Title(参考訳): エージェントRLの推論とツールユース
- Authors: Yu Li, Mingyang Yi, Xiuyu Li, Ju Fan, Fuxin Jiang, Binbin Chen, Peng Li, Jie Song, Tieying Zhang,
- Abstract要約: Agentic Reinforcement Learning (ARL) は、複雑なタスクを解決するために、推論と外部ツールの実行をインターリーブするために、大きな言語モデルをトレーニングすることに焦点を当てている。
ほとんどの既存のARLメソッドは、推論とツールの使用行動の両方をサポートするために単一の共有モデルパラメータをトレーニングしている。
これらの2つの能力は、しばしば不整合勾配方向を誘導し、共同最適化の有効性を損なう訓練の干渉を引き起こす。
DART(Disentangled Action Reasoning Tuning)は、推論のためのパラメータ更新とツール使用を分離したローランクで明示的に分離する、シンプルで効率的なフレームワークである。
- 参考スコア(独自算出の注目度): 26.401906729658688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic Reinforcement Learning (ARL) focuses on training large language models (LLMs) to interleave reasoning with external tool execution to solve complex tasks. Most existing ARL methods train a single shared model parameters to support both reasoning and tool use behaviors, implicitly assuming that joint training leads to improved overall agent performance. Despite its widespread adoption, this assumption has rarely been examined empirically. In this paper, we systematically investigate this assumption by introducing a Linear Effect Attribution System(LEAS), which provides quantitative evidence of interference between reasoning and tool-use behaviors. Through an in-depth analysis, we show that these two capabilities often induce misaligned gradient directions, leading to training interference that undermines the effectiveness of joint optimization and challenges the prevailing ARL paradigm. To address this issue, we propose Disentangled Action Reasoning Tuning(DART), a simple and efficient framework that explicitly decouples parameter updates for reasoning and tool-use via separate low-rank adaptation modules. Experimental results show that DART consistently outperforms baseline methods with averaged 6.35 percent improvements and achieves performance comparable to multi-agent systems that explicitly separate tool-use and reasoning using a single model.
- Abstract(参考訳): Agentic Reinforcement Learning (ARL)は、大規模な言語モデル(LLM)をトレーニングして、複雑なタスクを解決するための外部ツールの実行と推論をインターリーブすることに焦点を当てている。
ほとんどの既存のARLメソッドは、推論とツールの使用行動の両方をサポートするために単一の共有モデルパラメータをトレーニングしている。
広く採用されているにもかかわらず、この仮定は経験的に研究されることはめったにない。
本稿では,この仮定を線形効果属性システム(LEAS)によって体系的に検討し,推論とツール利用行動の干渉の定量的な証拠を提供する。
奥行き分析により、これらの2つの能力は、しばしば不整合勾配方向を誘導し、共同最適化の有効性を損なう訓練干渉を引き起こし、一般的なARLパラダイムに挑戦することを示す。
この問題に対処するために、DART(Disentangled Action Reasoning Tuning)を提案する。DARTは、推論のためのパラメータ更新と、別の低ランク適応モジュールを介してツール使用を明示的に分離する、シンプルで効率的なフレームワークである。
実験の結果、DARTは平均6.35パーセントの改善でベースライン手法を一貫して上回り、ツールの使用と推論を1つのモデルで明確に分離したマルチエージェントシステムに匹敵する性能を達成した。
関連論文リスト
- MAXS: Meta-Adaptive Exploration with LLM Agents [48.04723638253802]
MaxSはLarge Language Model (LLM) Agentsをベースにしたメタ適応推論フレームワークである。
MAXSは、いくつかのステップを進む推論パスを拡張するために、ルックアヘッド戦略を採用している。
ステップの一貫性のばらつきとステップ間のトレンドスロープを組み合わせることで、安定で一貫性があり、高い値の推論ステップを共同で選択する。
論文 参考訳(メタデータ) (2026-01-14T07:48:00Z) - When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Tool-Augmented Policy Optimization: Synergizing Reasoning and Adaptive Tool Use with Reinforcement Learning [29.280386584974455]
大規模言語モデル(LLM)の最近の進歩はテスト時間スケーリングを普及させ、モデルが最終回答を生成する前にさらなる推論トークンを生成する。
これらの手法は、数学的推論を含むベンチマークにおいて顕著な性能向上を示した。
本稿では,マルチホップ推論と適応型ツールコール機能を統合した新しい強化学習フレームワークであるツール拡張ポリシー最適化(TAPO)を提案する。
論文 参考訳(メタデータ) (2025-10-08T14:04:27Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。