論文の概要: APO: Alpha-Divergence Preference Optimization
- arxiv url: http://arxiv.org/abs/2512.22953v1
- Date: Sun, 28 Dec 2025 14:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.296415
- Title: APO: Alpha-Divergence Preference Optimization
- Title(参考訳): APO:Alpha-Divergence Preference Optimization
- Authors: Wang Zixian,
- Abstract要約: 我々は、Csiszar alpha-divergence を用いて、前向きと逆KLの動作を継続的に補間するアンカー付きフレームワークであるAlpha-Divergence Preference Optimization (APO)を紹介する。
我々は、αでパラメータ化された統一勾配力学を導出し、勾配分散特性を解析し、ポリシーの改善と信頼性の両面においてのみ、カバレッジから活用へ移行する実用的な報酬と信頼の保護されたアルファスケジュールを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two divergence regimes dominate modern alignment practice. Supervised fine-tuning and many distillation-style objectives implicitly minimize the forward KL divergence KL(q || pi_theta), yielding stable mode-covering updates but often under-exploiting high-reward modes. In contrast, PPO-style online reinforcement learning from human feedback behaves closer to reverse KL divergence KL(pi_theta || q), enabling mode-seeking improvements but risking mode collapse. Recent anchored methods, such as ADPO, show that performing the projection in anchored coordinates can substantially improve stability, yet they typically commit to a single divergence. We introduce Alpha-Divergence Preference Optimization (APO), an anchored framework that uses Csiszar alpha-divergence to continuously interpolate between forward and reverse KL behavior within the same anchored geometry. We derive unified gradient dynamics parameterized by alpha, analyze gradient variance properties, and propose a practical reward-and-confidence-guarded alpha schedule that transitions from coverage to exploitation only when the policy is both improving and confidently calibrated. Experiments on Qwen3-1.7B with math-level3 demonstrate that APO achieves competitive performance with GRPO and GSPO baselines while maintaining training stability.
- Abstract(参考訳): 2つの分断体制が現代のアライメントの実践を支配している。
改良された微調整と多くの蒸留スタイルの目的は、KLの分岐KL(q || pi_theta)を暗黙的に最小化し、安定なモードカバー更新をもたらすが、しばしば低露光のハイリワードモードをもたらす。
対照的に、人間のフィードバックからPPOスタイルのオンライン強化学習は、逆KL発散KL(pi_theta || q)に近づき、モード探索の改善が可能だがモード崩壊のリスクがある。
ADPOのような最近のアンカード法は、アンカード座標における射影は安定性を著しく向上させるが、通常は1つの発散にコミットすることを示している。
我々は、Csiszar alpha-divergence を用いて、同じアンカー幾何学において、前と逆のKL挙動を連続的に補間するアンカー付きフレームワークであるAlpha-Divergence Preference Optimization (APO)を紹介する。
我々は、αでパラメータ化された統一勾配力学を導出し、勾配分散特性を解析し、ポリシーの改善と信頼性の両面においてのみ、カバレッジから活用へ移行する実用的な報酬と信頼の保護されたアルファスケジュールを提案する。
Qwen3-1.7Bと数学レベル3の実験では、APOがGRPOとGSPOのベースラインとの競争性能を向上し、トレーニングの安定性を維持していることが示された。
関連論文リスト
- Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Multi-Agent Trust Region Policy Optimisation: A Joint Constraint Approach [17.48210470289556]
Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) は、Kulback-Leibler (KL) の分散を用いて、訓練の安定化を図る。
各エージェントを同じKL閾値に割り当てると、特に不均一な設定において、遅くて局所的に最適な更新につながる可能性がある。
エージェント間のKL分散しきい値の割当には,グローバルなKL制約下でのしきい値割り当てを最適化するKKT法であるHATRPO-Wと,改善に基づくエージェントの優先順位付けを行うgreedyアルゴリズムであるHATRPO-Gの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-14T04:48:46Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。