論文の概要: From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
- arxiv url: http://arxiv.org/abs/2509.16591v1
- Date: Sat, 20 Sep 2025 09:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.877321
- Title: From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
- Title(参考訳): 一様から不均質へ:全戸建の自然に政策最適化を編み出す
- Authors: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang,
- Abstract要約: 既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論プロセスにおける異なる役割を無視している。
本稿では,トークンエントロピーに基づく最適化を動的に適用するトークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を紹介する。
- 参考スコア(独自算出の注目度): 38.46122853450324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning has emerged as the fundamental technique for enhancing reasoning in LLMs. However, existing algorithms apply uniform optimization to all tokens, ignoring their different roles in reasoning process. To address this limitation, we introduce Heterogeneous Adaptive Policy Optimization (HAPO), a comprehensive token-aware algorithm that dynamically adapts optimization based on token entropy. For rollout sampling, we propose Adaptive Temperature Sampling, which adjusts sampling temperature in real time, promoting exploration at high-entropy tokens while preserving coherence at low-entropy ones. For advantage calculation, we introduce Token Level Group Average that normalizes advantages at token level, jointly accounting for sequence-length as in token-mean loss while preserving non-biased treatment. We then develop Differential Advantage Redistribution that leverages entropy and importance ratios to modulate rewards-adjusting updates for tokens with clear signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing aggressive probability reduction for noisy low-entropy tokens while enabling exploration for high-entropy tokens. Through systematic investigation between entropy and training dynamics, we embedded token-level treatment into every stages to achieve fine-grained control. Extensive experiments demonstrate that HAPO consistently outperforms DAPO across multiple model scales. Our code can be found in https://github.com/starriver030515/HAPO.
- Abstract(参考訳): 強化学習は,LLMにおける推論向上の基礎的手法として登場した。
しかし、既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論過程における異なる役割を無視している。
この制限に対処するため,トークンエントロピーに基づく最適化を動的に適用する包括的トークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を導入する。
ロールアウトサンプリングでは,サンプル温度をリアルタイムで調整し,高エントロピートークンでの探索を促進するとともに,低エントロピートークンでのコヒーレンスを保ったアダプティブ温度サンプリングを提案する。
そこで,トークンレベルでの利得を正規化し,非バイアス処理を保ちながらトークン平均損失などのシーケンス長を共同で考慮するトークンレベル群平均化手法を提案する。
次に、エントロピーと重要度を利用した微分アドバンテージ再分配法を開発し、明確な信号を持つトークンの報酬調整更新を変調する。
高エントロピートークンの探索を可能にしつつ、ノイズの多い低エントロピートークンに対するアグレッシブな確率低減を可能にする非対称適応クリッピングを設計する。
エントロピーとトレーニングダイナミクスの体系的な研究を通じて、トークンレベルの処理を各ステージに組み込んで、きめ細かい制御を実現した。
大規模な実験により、HAPOは複数のモデルスケールでDAPOを一貫して上回ることを示した。
私たちのコードはhttps://github.com/starriver030515/HAPOで確認できます。
関連論文リスト
- STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens [38.425692691443764]
既存の強化学習(RL)ファインチューニング手法は、安定性を維持するためにエントロピー正則化と再重み付けに大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊に悩まされ、推論品質の低下と不安定なトレーニングにつながります。
トレーニングの不安定性は、約0.01%の少量のトークンによって引き起こされる可能性がある。
安定かつ効果的な大規模モデル改良を促進するSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-02-17T14:46:48Z) - Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models [18.084251607403406]
大規模言語モデルのハイブリッドトレーニング手法は、専門家によるデモンストレーションにおける教師付き微調整(SFT)とモデルロールアウトにおける強化学習(RL)を組み合わせる。
本稿では,トークンレベル勾配変調によるサンプルレベル混合を拡張する3段階フレームワークであるEntropy Gated Selective Policy Optimization (EGSPO)を提案する。
EGSPOは数学的推論ベンチマークにおいて一貫した改善を達成し、AIMEでは3.8%、CHORD phiベースラインでは2.9%、計算オーバーヘッドは3.4%に留まった。
論文 参考訳(メタデータ) (2026-02-03T09:38:21Z) - Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning [55.2818264614932]
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
論文 参考訳(メタデータ) (2026-02-02T07:27:19Z) - Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning [30.889495810312624]
本稿では,意味レベルとトークンレベルの両方でエントロピー信号を活用して推論を改善する,効率的な強化学習フレームワークを提案する。
データ構造とアルゴリズム設計を協調的に最適化することにより,エントロピー崩壊を効果的に軽減し,推論を強化する。
論文 参考訳(メタデータ) (2025-12-04T01:09:17Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning [51.79350934271497]
GateRAは、PEFT更新の強度を動的に調整するトークン対応変調を導入する統一フレームワークである。
適応ゲーティングを標準のPEFTブランチに組み込むことで、Gateraは選択的でトークンレベルの適応を可能にする。
複数のコモンセンス推論ベンチマークの実験により、GateRAはPEFT法よりも一貫して優れ、一致していることが示された。
論文 参考訳(メタデータ) (2025-11-15T17:55:47Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning [28.02073546326571]
政策エントロピーは、訓練中の探検と搾取のバランスを反映している。
既存の方法は、クリッピング機構により、低確率トークンから貴重な勾配信号を捨てる。
textbfGradient textbfPreserving textbfPolicy textbfOptimization を用いて textbfCoordinating textbfEntropy を提案する。
論文 参考訳(メタデータ) (2025-09-25T03:22:04Z) - GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [0.0]
グループ相対政策最適化(GRPO)のようなアルゴリズムによる強化学習(RL)は、LLM推論を改善する。
本稿では,textbfDynamic Entropy Weightingを用いてこの問題を解決する。
私たちの中核的な考え方は、正しい応答における高エントロピートークンは、より高いパフォーマンスの天井に向かってポリシーを導くことができるということです。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z) - Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。
SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。
実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T21:09:33Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。