論文の概要: ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21826v1
- Date: Fri, 26 Sep 2025 03:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.15909
- Title: ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models
- Title(参考訳): ResT: ツール利用大規模言語モデルのためのToken-Level Policy Gradientsの再構築
- Authors: Zihan Lin, Xiaohan Wang, Jie Cao, Jiajun Chai, Guojun Yin, Wei Lin, Ran He,
- Abstract要約: 大規模言語モデル(LLM)は受動的生成を超越し、外部ツールを呼び出すことで目標指向エージェントとして機能する。
textbfReshaped textbfToken-level policy gradients (textbfResT) for tool-use task。
textbfResTは最先端の結果を達成し、以前のメソッドを最大8.76%$で上回っている。
- 参考スコア(独自算出の注目度): 62.82372407840088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) transcend passive generation and act as goal-directed agents by invoking external tools. Reinforcement learning (RL) offers a principled framework for optimizing these emergent tool-use policies, yet the prevailing paradigm relies exclusively on sparse outcome rewards and lacks consideration of the particularity of tool-use tasks, inflating policy-gradient variance and resulting in inefficient training. To better understand and address these challenges, we first establish a theoretical link between policy entropy and training stability of tool-use tasks, which reveals that structured, low-entropy tokens are primary determinants of rewards. Motivated by this insight, we propose \textbf{Res}haped \textbf{T}oken-level policy gradients (\textbf{ResT}) for tool-use tasks. ResT reshapes the policy gradient through entropy-informed token reweighting, progressively upweighting reasoning tokens as training proceeds. This entropy-aware scheme enables a smooth shift from structural correctness to semantic reasoning and stabilizes convergence in multi-turn tool-use tasks. Evaluation on BFCL and API-Bank shows that ResT achieves state-of-the-art results, outperforming prior methods by up to $8.76\%$. When fine-tuned on a 4B base LLM, ResT further surpasses GPT-4o by $4.11\%$ on single-turn tasks and $1.50\%$ on multi-turn base tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は受動的生成を超越し、外部ツールを呼び出すことで目標指向エージェントとして機能する。
強化学習(Reinforcement Learning, RL)は、これらの創発的なツール利用ポリシーを最適化するための原則的なフレームワークを提供するが、一般的なパラダイムは、粗末な成果報酬にのみ依存し、ツール利用タスクの特異性を考慮せず、ポリシーの段階的な分散を膨らませ、非効率なトレーニングをもたらす。
これらの課題をよりよく理解し、対処するために、我々はまず、ポリシーエントロピーとツール使用タスクのトレーニング安定性の理論的関連を確立する。
この知見に触発されて、ツール利用タスクに対する \textbf{Res}haped \textbf{T}oken-level policy gradients (\textbf{ResT}) を提案する。
ResTは、エントロピーにインフォームドされたトークンの再重み付けを通じてポリシーの勾配を調整し、トレーニングが進むにつれて徐々に推論トークンの重み付けを行う。
このエントロピー対応スキームは、構造的正しさから意味論的推論へのスムーズなシフトを可能にし、マルチターンツール利用タスクにおける収束を安定化させる。
BFCLとAPI-Bankの評価によると、ResTは最先端の結果を達成し、以前の手法を最大8.76セントで上回っている。
4BベースLLMで微調整された場合、ResTはシングルターンタスクで4.11 %、マルチターンベースタスクで1.50 %、GPT-4oを超える。
関連論文リスト
- Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards [17.695285420477035]
オフポリシーRLと教師付き微調整の中間領域のアルゴリズムについて検討する。
まず、このオフポリティREINFORCEアルゴリズムの理論的解析を行う。
我々の分析によると、オンライン更新はポジティブな信号とネガティブな信号の両方を安全に活用できるが、オフライン更新は、ネガティブな信号よりもポジティブな報酬にフォーカスすることの恩恵を受ける。
論文 参考訳(メタデータ) (2025-06-25T15:07:16Z) - BNPO: Beta Normalization Policy Optimization [9.60676665395923]
動的に更新されたパラメータを持つベータ分布を用いて報酬を適応的に正規化する新しいポリシー最適化手法を提案する。
本稿では,BNPOの分散還元特性を理論的に証明し,二値報酬設定の下でREINFORCEとGRPOの両方を一般化することを示す。
実験の結果,BNPOは推論タスクにおけるポリシー最適化手法の最先端性能を達成できることを確認した。
論文 参考訳(メタデータ) (2025-06-03T13:28:57Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.642505299142956]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
政治上の強化学習を、明白な批評家と実践することは、これらの特性の両方を提供することを示す。
得られたアルゴリズムは、政策評価と政策改善の段階において、明らかな不確実性の不可欠な役割のために、$textit Evidential Proximal Policy Optimization (EPPO)$と命名する。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。