論文の概要: Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
- arxiv url: http://arxiv.org/abs/2602.05261v1
- Date: Thu, 05 Feb 2026 03:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.745069
- Title: Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
- Title(参考訳): 長さアンバイアスシーケンスポリシー最適化:RLVRにおける応答長変動の探索と制御
- Authors: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu,
- Abstract要約: 応答長の増加は、しばしば推論能力の成長に寄与する重要な要因とみなされる。
本稿では,主流RLVRアルゴリズムのコンポーネントの詳細な分析を行う。
本稿では,Longth-Unbiased Sequence Policy Optimization (LUSPO)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.820526438759238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.
- Abstract(参考訳): 近年のLLM(Large Language Models)とVLM(Vision-Language Models)へのRLVR(Reinforcement Learning with Verifiable Rewards)の適用は,複雑なタスクの推論能力の向上に大きく成功している。
RLVRトレーニング中、応答長の増加は、しばしば推論能力の成長に寄与する重要な要因とみなされる。
しかし, 学習過程において, 応答長の変化パターンはRLVRアルゴリズムによって大きく異なる。
本稿では,これらの変動の基本的な説明として,主流RLVRアルゴリズムのコンポーネントの詳細な分析を行う。
本稿では,応答長に影響を与える要因の理論的解析を行い,広範囲な実験を通じてその理論を検証した。
これらの理論的知見に基づいて,Longth-Unbiased Sequence Policy Optimization (LUSPO)アルゴリズムを提案する。
具体的には、GSPO(Group Sequence Policy Optimization)に固有の長さバイアスを補正し、応答長に関する損失関数を非バイアスにすることで、応答長の崩壊の問題を解消する。
数学的推論のベンチマークやマルチモーダル推論のシナリオにまたがる広範な実験を行い、LUSPOは一貫して優れた性能を実現している。
実験結果から,LUSPOはGRPOやGSPOといった既存手法と比較して,新しい最先端の最適化戦略であることが示された。
関連論文リスト
- LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards [57.993003392037174]
LongRは動的"Think-and-Read"メカニズムを統合することで、長時間コンテキストのパフォーマンスを向上させるフレームワークである。
LongRは様々なRLアルゴリズムのパフォーマンスを継続的に向上する。
論文 参考訳(メタデータ) (2026-02-05T15:26:47Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning [20.48365890565577]
本稿では,各ステップにおけるトレーニングデータを平均応答長に基づいて動的に選択するメタRLVRアルゴリズムを提案する。
複数のベースモデルとデータセットにまたがるLSPOを評価し,学習効率を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-10-01T20:57:22Z) - DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management [18.953750405635393]
Decoupled Group Reward Optimization (DGRO) は、大規模言語モデル(LLM)推論のための一般的なRLアルゴリズムである。
我々はDGROが平均96.9%の精度でLogicデータセットの最先端性能を達成することを示し、数学的なベンチマークで強い一般化を示す。
論文 参考訳(メタデータ) (2025-05-19T10:44:49Z) - An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models [32.04194224236952]
スパースレートリダクション(SRR)と呼ばれる情報理論目的関数を提案する。
SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることを示す。
ベンチマーク画像分類データセットの正規化として,SRRを用いて一般化を改善することができることを示す。
論文 参考訳(メタデータ) (2024-11-26T07:44:57Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。