論文の概要: BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.04918v1
- Date: Thu, 05 Mar 2026 08:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.134225
- Title: BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning
- Title(参考訳): BandPO: LLM強化学習における信頼領域のブリッジ化と確率的境界による比率クリッピング
- Authors: Yuan Li, Bo Wang, Yufei Gao, Yuqian Yao, Xinyuan Wang, Zhangyue Yin, Xipeng Qiu,
- Abstract要約: BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
- 参考スコア(独自算出の注目度): 49.25750348525603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal constraints are fundamental to the stability of the Large Language Model reinforcement learning. While the canonical clipping mechanism in PPO serves as an efficient surrogate for trust regions, we identify a critical bottleneck: fixed bounds strictly constrain the upward update margin of low-probability actions, disproportionately suppressing high-advantage tail strategies and inducing rapid entropy collapse. To address this, we introduce Band-constrained Policy Optimization (BandPO). BandPO replaces canonical clipping with Band, a unified theoretical operator that projects trust regions defined by f-divergences into dynamic, probability-aware clipping intervals. Theoretical analysis confirms that Band effectively resolves this exploration bottleneck. We formulate this mapping as a convex optimization problem, guaranteeing a globally optimal numerical solution while deriving closed-form solutions for specific divergences. Extensive experiments across diverse models and datasets demonstrate that BandPO consistently outperforms canonical clipping and Clip-Higher, while robustly mitigating entropy collapse.
- Abstract(参考訳): 近位制約は、大規模言語モデルの強化学習の安定性の基本である。
PPOのカノニカルクリッピング機構は信頼領域の効率的なサロゲートとして機能するが、重要なボトルネックを同定する。固定境界は、低確率動作のアップアップアップデートマージンを厳格に制限し、高アドバンテージテール戦略を不均等に抑制し、急激なエントロピー崩壊を引き起こす。
そこで本研究では,Band-Constrained Policy Optimization (BandPO)を紹介する。
BandPOは、f-分枝によって定義された信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
理論的解析により、バンドはこの探索ボトルネックを効果的に解決することを確認した。
我々は、この写像を凸最適化問題として定式化し、特定の発散に対する閉形式解を導出しながら、大域的に最適な数値解を保証する。
多様なモデルやデータセットにわたる大規模な実験により、BandPOは、エントロピー崩壊を強力に緩和しながら、カノニカルクリッピングとClip-Higherを一貫して上回ることを示した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning [30.908304728142983]
クエリ適応信頼度ポリシー最適化(QUATRO)を提案する。
QUATROは、原則化された最適化を通じて、信頼領域の制約を直接実施する。
様々な数学的推論のベンチマークで実証的な検証を行ったところ、QUITROは政策安定度の増加の下で安定な振舞いを示す。
論文 参考訳(メタデータ) (2026-02-04T14:51:04Z) - Clipping-Free Policy Optimization for Large Language Models [30.663054788473598]
強化学習は、訓練後の大規模言語モデルの中心となっている。
支配的なアルゴリズムは、大規模に最適化問題を導入するためのクリッピング機構に依存しています。
本稿では,クリッピングを全変動ばらつき制約から導いた凸ペナルティに置き換えるクリッピング自由政策最適化を提案する。
論文 参考訳(メタデータ) (2026-01-30T10:32:37Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization [6.716883192613149]
textbfElastic textbfTrust textbfETRを提案する。
ETRはGRPOを一貫して上回り、より優れた精度を実現し、政策エントロピー劣化を効果的に緩和する。
論文 参考訳(メタデータ) (2026-01-07T09:19:53Z) - Non-Asymptotic Global Convergence of PPO-Clip [23.221917827987625]
本稿では,一般RL設定における決定論的アクターのみのPPOアルゴリズムを解析することにより,PPO-Clipアルゴリズムの理論的基礎を推し進める。
この問題に対して不均一リプシッツの滑らか度条件と Ojasiewicz の不等式を導出する。
論文 参考訳(メタデータ) (2025-12-18T14:06:37Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。