論文の概要: Clipping-Free Policy Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.22801v1
- Date: Fri, 30 Jan 2026 10:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.383018
- Title: Clipping-Free Policy Optimization for Large Language Models
- Title(参考訳): 大規模言語モデルのためのクリッピングフリーポリシー最適化
- Authors: Ömer Veysel Çağatan, Barış Akgün, Gözde Gül Şahin, Xuandong Zhao,
- Abstract要約: 強化学習は、訓練後の大規模言語モデルの中心となっている。
支配的なアルゴリズムは、大規模に最適化問題を導入するためのクリッピング機構に依存しています。
本稿では,クリッピングを全変動ばらつき制約から導いた凸ペナルティに置き換えるクリッピング自由政策最適化を提案する。
- 参考スコア(独自算出の注目度): 30.663054788473598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.
- Abstract(参考訳): 強化学習は、訓練後の大規模言語モデルの中心となっているが、主流のアルゴリズムは、ゼログレードのリージョン、報酬のハッキング、トレーニング不安定性など、大規模に最適化問題を提起するクリップ機構に依存している。
本研究では,厳密な境界のない安定的な政策更新を実施可能な,至るところで微分可能な目標を導出する,全変分数制約から導出される凸2次ペナルティに,ヒューリスティックなクリッピングを置き換えたクリッピング自由政策最適化(CFPO)を提案する。
CFPOは推論とアライメントの両方で評価する。
CFPOは、安定したトレーニング体制を拡張しながら、ダウンストリームベンチマーク上のクリップベースのメソッドにマッチする。
アライメントにおいて、CFPOは冗長性の利用を軽減し、競争力のある命令追従性能を達成しつつ、能力劣化を低減する。
CFPOは1行のコードの変更だけで、追加のハイパーパラメータを必要としない。
この結果から,CFPOはLCMポストトレーニングのためのクリッピング方式に代わる,有望なドロップイン方式であることが示唆された。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。