論文の概要: AutoTool: Automatic Scaling of Tool-Use Capabilities in RL via Decoupled Entropy Constraints
- arxiv url: http://arxiv.org/abs/2603.13348v1
- Date: Sat, 07 Mar 2026 12:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.106628
- Title: AutoTool: Automatic Scaling of Tool-Use Capabilities in RL via Decoupled Entropy Constraints
- Title(参考訳): AutoTool: 分離エントロピー制約によるRLのツール使用機能の自動スケーリング
- Authors: Yirong Zeng, Xiao Ding, Yufei Liu, Yuxian Wang, Qunyao Du, Yutai Hou, Wu Ning, Haonan Song, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu,
- Abstract要約: 本稿では,モデルが単純な問題と複雑な問題とを区別するのを支援するために,まずウォームアップ教師付き微調整を取り入れた新しいトレーニングパラダイムを提案する。
次にエントロピーに基づくロングショート推論融合RL戦略を導入する。
3つのベンチマーク実験により,効率的なツール使用のための自動スケーリングを実現し,9.8%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 45.910385871220576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tool use represents a critical capability for AI agents, with recent advances focusing on leveraging reinforcement learning (RL) to scale up the explicit reasoning process to achieve better performance. However, there are some key challenges for tool use in current RL-based scaling approaches: (a) direct RL training often struggles to scale up thinking length sufficiently to solve complex problems, and (b) scaled-up models tend to overthink simpler problems, resulting in substantial token inefficiency. To address these challenges, we propose a novel training paradigm that first employs warm-up supervised fine-tuning to help models distinguish between simple and complex problems, followed by RL that enable models to automatically determine appropriate reasoning trajectories. Furthermore, to tackle the issue of automatic thinking-length scaling, we discover that entropy-based optimization objectives effectively maintain model diversity while successfully unlocking the model's scaling capabilities. Based on this insight, we introduce an entropy-based long-short reasoning fusion RL strategy. Our experiments on three benchmarks demonstrate that model successfully achieves auto-scaling for efficient tool use, achieving significant 9.8\% accuracy improvements while reducing computational overhead by \textasciitilde81\%.
- Abstract(参考訳): ツールの使用はAIエージェントにとって重要な機能であり、強化学習(RL)を活用して、パフォーマンス向上のために明確な推論プロセスをスケールアップすることに重点を置いている。
しかし、現在のRLベースのスケーリングアプローチでは、ツールを使用する上で重要な課題がいくつかある。
(a)直接RLトレーニングは、複雑な問題を解決するのに十分な思考長のスケールアップに苦慮することが多く、
(b)スケールアップモデルは、単純な問題を過度に考え、実質的なトークン非効率をもたらす傾向にある。
これらの課題に対処するために、まず、モデルが単純な問題と複雑な問題とを区別するのを助けるためにウォームアップ教師付き微調整を用いる新しいトレーニングパラダイムを提案し、続いてモデルが適切な推論軌跡を自動的に決定できるようにするRLを提案する。
さらに, 自動思考長スケーリングの問題に対処するために, エントロピーに基づく最適化の目的は, モデルのスケーリング能力を効果的に解き放ちながら, モデルの多様性を効果的に維持することを見出した。
この知見に基づいて,エントロピーに基づくロングショート推論融合RL戦略を導入する。
3つのベンチマーク実験により,効率的なツール使用のための自動スケーリングを実現し,9.8\%の精度向上を実現し,計算オーバーヘッドをtextasciitilde81\%削減した。
関連論文リスト
- Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Automated Evolutionary Optimization for Resource-Efficient Neural Network Training [0.3905614402386577]
我々は、新しい自動機械学習(AutoML)フレームワーク、効率的な学習とロバスト自動化(PETRA)を開発した。
モデルアーキテクチャとトレーニング戦略に進化的最適化を適用する。
PETRAはプルーニング、量子化、損失正規化を含む。
論文 参考訳(メタデータ) (2025-10-10T17:17:49Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。