論文の概要: Clip Your Sequences Fairly: Enforcing Length Fairness for Sequence-Level RL
- arxiv url: http://arxiv.org/abs/2509.09177v2
- Date: Tue, 23 Sep 2025 15:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 18:29:14.52549
- Title: Clip Your Sequences Fairly: Enforcing Length Fairness for Sequence-Level RL
- Title(参考訳): シークエンスレベルRLに長さフェアネスを課す「Clip Your Sequences」
- Authors: Hanyi Mao, Quanjia Xiao, Lei Pang, Haixiao Liu,
- Abstract要約: FSPO (Fair Sequence Policy Optimization) は,LLMの列レベルの強化学習手法である。
シークエンスレベルISを用いたRL法について検討し,PPO/GRPOスタイルのクリッピングをシークエンスに移植した場合のミスマッチを同定した。
FSPOは単純な治療法を導入します: シーケンス対IS比を$sqrtL$のバンドでクリップします。
- 参考スコア(独自算出の注目度): 1.5303354857604878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose FSPO (Fair Sequence Policy Optimization), a sequence-level reinforcement learning method for LLMs that enforces length-fair clipping on the importance-sampling (IS) weight. We study RL methods with sequence-level IS and identify a mismatch when PPO/GRPO-style clipping is transplanted to sequences: a fixed clip range systematically reweights short vs.\ long responses, distorting the optimization direction. FSPO introduces a simple remedy: we clip the sequence log-IS ratio with a band that scales as $\sqrt{L}$. Theoretically, we formalize length fairness via a Length Reweighting Error (LRE) and prove that small LRE yields a cosine directional guarantee between the clipped and true updates. Empirically, FSPO flattens clip rates across length bins, stabilizes training, and outperforms all baselines across multiple evaluation datasets on Qwen3-8B-Base model.
- Abstract(参考訳): 本研究では, FSPO (Fair Sequence Policy Optimization) を提案する。FSPO (Fair Sequence Policy Optimization, LLM) は, 重要サンプリング (IS) 重みに長さフェアクリッピングを適用したシーケンスレベル強化学習法である。
本研究では,PPO/GRPO型クリッピングをシーケンスに移植した場合に,シーケンスレベルのISを用いてRL法を検証し,ミスマッチを同定する。
長応答で最適化方向を歪めます。
FSPOは単純な治療法を導入する: シーケンス対IS比を$\sqrt{L}$とスケールするバンドでクリップする。
理論的には、LRE(Longth Reweighting Error)を用いて長さの公正性を定式化し、小さなLREがクリップと真の更新の間にコサイン方向の保証を与えることを示す。
FSPOは、Qwen3-8B-Baseモデル上の複数の評価データセットで、クリップレートをフラット化し、トレーニングを安定化し、すべてのベースラインのパフォーマンスを向上する。
関連論文リスト
- Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions [0.5416466085090772]
emphQuantile Reward Policy Optimization (QRPO)を導入する。
QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。
チャットとコーディングの評価において、一貫して最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-10T17:56:24Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。
既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。
オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文 参考訳(メタデータ) (2025-01-22T09:12:09Z) - Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文 参考訳(メタデータ) (2024-11-07T11:22:46Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - On the Effectiveness of Lipschitz-Driven Rehearsal in Continual Learning [17.179898279925155]
データの小さなプールに対する繰り返し最適化は、必然的に厳密で不安定な決定境界につながる。
リプシッツ・ドリヴエン・リハーサル(Lidschitz-DrivEn Rehearsal, LiDER)を提案する。
大規模な実験により,LiDERの適用はいくつかの最先端のリハーサルCL手法に安定した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-10-12T17:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。