論文の概要: Clip Your Sequences Fairly: Enforcing Length Fairness for Sequence-Level RL
- arxiv url: http://arxiv.org/abs/2509.09177v1
- Date: Thu, 11 Sep 2025 06:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.249601
- Title: Clip Your Sequences Fairly: Enforcing Length Fairness for Sequence-Level RL
- Title(参考訳): シークエンスレベルRLに長さフェアネスを課す「Clip Your Sequences」
- Authors: Hanyi Mao, Quanjia Xiao, Lei Pang, Haixiao Liu,
- Abstract要約: LLMのシーケンスレベルの強化学習手法であるFSPO(Fair Sequence Policy Optimization)を提案する。
FSPOは、重要サンプリング(IS)重量空間において直接、長さフェアクリッピングを強制する。
FSPOは経験的に、長さのビンでクリップレートをフラットにし、トレーニングを安定化し、評価データセットですべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 1.5303354857604878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose FSPO (Fair Sequence Policy Optimization), a sequence-level reinforcement learning method for LLMs that enforces length-fair clipping directly in the importance-sampling (IS) weight space. We revisit sequence-level RL methods and identify a mismatch when PPO/GRPO-style clipping is transplanted to sequences: a fixed clip range systematically reweights short vs. long responses, distorting the effective objective. Theoretically, we formalize length fairness via a Length Reweighting Error (LRE) and prove that small LRE yields a directional cosine guarantee between the clipped and true updates. FSPO introduces a simple, Gaussian-motivated remedy: we clip the sequence log-IS ratio with a band that applies a KL-corrected drift term and scales as $\sqrt{L}$. Empirically, FSPO flattens clip rates across length bins, stabilizes training, and outperforms all baselines across multiple evaluation datasets.
- Abstract(参考訳): FSPO (Fair Sequence Policy Optimization) はLLMの系列レベルの強化学習手法で, 重要サンプリング(IS) 重み空間において, 直接的に長さのフェアクリッピングを行う。
PPO/GRPOスタイルのクリッピングがシーケンスに移植された場合、シーケンスレベルのRL法を再検討し、ミスマッチを同定する:固定クリップ範囲は、ショートとロングレスポンスを体系的に重み付けし、有効目的を歪ませる。
理論的には、LRE(Longth Reweighting Error)を用いて長さの公正性を定式化し、小さなLREがクリップと真の更新の間に方向性のコサインを保証することを証明した。
FSPOは、KL補正ドリフト項を適用し、$\sqrt{L}$としてスケールするバンドで、シーケンス対数-IS比をクリップする。
FSPOは経験的に、長さのビンをまたいだクリップレートをフラットにし、トレーニングを安定化し、複数の評価データセットですべてのベースラインを上回ります。
関連論文リスト
- Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions [0.5416466085090772]
emphQuantile Reward Policy Optimization (QRPO)を導入する。
QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。
チャットとコーディングの評価において、一貫して最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-10T17:56:24Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。
既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。
オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文 参考訳(メタデータ) (2025-01-22T09:12:09Z) - Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文 参考訳(メタデータ) (2024-11-07T11:22:46Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - On the Effectiveness of Lipschitz-Driven Rehearsal in Continual Learning [17.179898279925155]
データの小さなプールに対する繰り返し最適化は、必然的に厳密で不安定な決定境界につながる。
リプシッツ・ドリヴエン・リハーサル(Lidschitz-DrivEn Rehearsal, LiDER)を提案する。
大規模な実験により,LiDERの適用はいくつかの最先端のリハーサルCL手法に安定した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-10-12T17:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。