論文の概要: From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
- arxiv url: http://arxiv.org/abs/2509.16591v1
- Date: Sat, 20 Sep 2025 09:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.877321
- Title: From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
- Title(参考訳): 一様から不均質へ:全戸建の自然に政策最適化を編み出す
- Authors: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang,
- Abstract要約: 既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論プロセスにおける異なる役割を無視している。
本稿では,トークンエントロピーに基づく最適化を動的に適用するトークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を紹介する。
- 参考スコア(独自算出の注目度): 38.46122853450324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning has emerged as the fundamental technique for enhancing reasoning in LLMs. However, existing algorithms apply uniform optimization to all tokens, ignoring their different roles in reasoning process. To address this limitation, we introduce Heterogeneous Adaptive Policy Optimization (HAPO), a comprehensive token-aware algorithm that dynamically adapts optimization based on token entropy. For rollout sampling, we propose Adaptive Temperature Sampling, which adjusts sampling temperature in real time, promoting exploration at high-entropy tokens while preserving coherence at low-entropy ones. For advantage calculation, we introduce Token Level Group Average that normalizes advantages at token level, jointly accounting for sequence-length as in token-mean loss while preserving non-biased treatment. We then develop Differential Advantage Redistribution that leverages entropy and importance ratios to modulate rewards-adjusting updates for tokens with clear signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing aggressive probability reduction for noisy low-entropy tokens while enabling exploration for high-entropy tokens. Through systematic investigation between entropy and training dynamics, we embedded token-level treatment into every stages to achieve fine-grained control. Extensive experiments demonstrate that HAPO consistently outperforms DAPO across multiple model scales. Our code can be found in https://github.com/starriver030515/HAPO.
- Abstract(参考訳): 強化学習は,LLMにおける推論向上の基礎的手法として登場した。
しかし、既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論過程における異なる役割を無視している。
この制限に対処するため,トークンエントロピーに基づく最適化を動的に適用する包括的トークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を導入する。
ロールアウトサンプリングでは,サンプル温度をリアルタイムで調整し,高エントロピートークンでの探索を促進するとともに,低エントロピートークンでのコヒーレンスを保ったアダプティブ温度サンプリングを提案する。
そこで,トークンレベルでの利得を正規化し,非バイアス処理を保ちながらトークン平均損失などのシーケンス長を共同で考慮するトークンレベル群平均化手法を提案する。
次に、エントロピーと重要度を利用した微分アドバンテージ再分配法を開発し、明確な信号を持つトークンの報酬調整更新を変調する。
高エントロピートークンの探索を可能にしつつ、ノイズの多い低エントロピートークンに対するアグレッシブな確率低減を可能にする非対称適応クリッピングを設計する。
エントロピーとトレーニングダイナミクスの体系的な研究を通じて、トークンレベルの処理を各ステージに組み込んで、きめ細かい制御を実現した。
大規模な実験により、HAPOは複数のモデルスケールでDAPOを一貫して上回ることを示した。
私たちのコードはhttps://github.com/starriver030515/HAPOで確認できます。
関連論文リスト
- GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [0.0]
グループ相対政策最適化(GRPO)のようなアルゴリズムによる強化学習(RL)は、LLM推論を改善する。
本稿では,textbfDynamic Entropy Weightingを用いてこの問題を解決する。
私たちの中核的な考え方は、正しい応答における高エントロピートークンは、より高いパフォーマンスの天井に向かってポリシーを導くことができるということです。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z) - Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。
SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。
実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T21:09:33Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。