Fugu-MT 論文翻訳(概要): From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

論文の概要: From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

arxiv url: http://arxiv.org/abs/2509.16591v1
Date: Sat, 20 Sep 2025 09:30:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-23 18:58:15.877321
Title: From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature
Title（参考訳）: 一様から不均質へ:全戸建の自然に政策最適化を編み出す
Authors: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang,
Abstract要約: 既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論プロセスにおける異なる役割を無視している。本稿では,トークンエントロピーに基づく最適化を動的に適用するトークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を紹介する。
参考スコア（独自算出の注目度）: 38.46122853450324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning has emerged as the fundamental technique for enhancing reasoning in LLMs. However, existing algorithms apply uniform optimization to all tokens, ignoring their different roles in reasoning process. To address this limitation, we introduce Heterogeneous Adaptive Policy Optimization (HAPO), a comprehensive token-aware algorithm that dynamically adapts optimization based on token entropy. For rollout sampling, we propose Adaptive Temperature Sampling, which adjusts sampling temperature in real time, promoting exploration at high-entropy tokens while preserving coherence at low-entropy ones. For advantage calculation, we introduce Token Level Group Average that normalizes advantages at token level, jointly accounting for sequence-length as in token-mean loss while preserving non-biased treatment. We then develop Differential Advantage Redistribution that leverages entropy and importance ratios to modulate rewards-adjusting updates for tokens with clear signals. For clipping loss, we design Asymmetric Adaptive Clipping, allowing aggressive probability reduction for noisy low-entropy tokens while enabling exploration for high-entropy tokens. Through systematic investigation between entropy and training dynamics, we embedded token-level treatment into every stages to achieve fine-grained control. Extensive experiments demonstrate that HAPO consistently outperforms DAPO across multiple model scales. Our code can be found in https://github.com/starriver030515/HAPO.
Abstract（参考訳）: 強化学習は,LLMにおける推論向上の基礎的手法として登場した。しかし、既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論過程における異なる役割を無視している。この制限に対処するため,トークンエントロピーに基づく最適化を動的に適用する包括的トークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を導入する。ロールアウトサンプリングでは,サンプル温度をリアルタイムで調整し,高エントロピートークンでの探索を促進するとともに,低エントロピートークンでのコヒーレンスを保ったアダプティブ温度サンプリングを提案する。そこで,トークンレベルでの利得を正規化し,非バイアス処理を保ちながらトークン平均損失などのシーケンス長を共同で考慮するトークンレベル群平均化手法を提案する。次に、エントロピーと重要度を利用した微分アドバンテージ再分配法を開発し、明確な信号を持つトークンの報酬調整更新を変調する。高エントロピートークンの探索を可能にしつつ、ノイズの多い低エントロピートークンに対するアグレッシブな確率低減を可能にする非対称適応クリッピングを設計する。エントロピーとトレーニングダイナミクスの体系的な研究を通じて、トークンレベルの処理を各ステージに組み込んで、きめ細かい制御を実現した。大規模な実験により、HAPOは複数のモデルスケールでDAPOを一貫して上回ることを示した。私たちのコードはhttps://github.com/starriver030515/HAPOで確認できます。

論文の概要: From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

関連論文リスト