論文の概要: CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR
- arxiv url: http://arxiv.org/abs/2603.10101v1
- Date: Tue, 10 Mar 2026 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.638221
- Title: CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR
- Title(参考訳): CLIPO: 政策最適化における対照的な学習がRLVRを一般化
- Authors: Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: RLVRによる強化学習は大規模言語モデル(LLM)の推論能力を大幅に向上させた。
プロセスに反するが結果の正しいロールアウトのトレーニングは、幻覚と回答コピーにつながる可能性がある。
RLVRプロセスの一般化のために,コントラスト学習機構を政策最適化(CLIPO)に組み込んだ。
- 参考スコア(独自算出の注目度): 10.821950260274066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capacity of Large Language Models (LLMs). However, RLVR solely relies on final answers as outcome rewards, neglecting the correctness of intermediate reasoning steps. Training on these process-wrong but outcome-correct rollouts can lead to hallucination and answer-copying, severely undermining the model's generalization and robustness. To address this, we incorporate a Contrastive Learning mechanism into the Policy Optimization (CLIPO) to generalize the RLVR process. By optimizing a contrastive loss over successful rollouts, CLIPO steers the LLM to capture the invariant structure shared across correct reasoning paths. This provides a more robust cross-trajectory regularization than the original single-path supervision in RLVR, effectively mitigating step-level reasoning inconsistencies and suppressing hallucinatory artifacts. In experiments, CLIPO consistently improves multiple RLVR baselines across diverse reasoning benchmarks, demonstrating uniform improvements in generalization and robustness for policy optimization of LLMs. Our code and training recipes are available at https://github.com/Qwen-Applications/CLIPO.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLM) の推論能力を大幅に向上させた。
しかし、RLVRは結果の報酬として最終回答にのみ依存しており、中間的推論ステップの正しさを無視している。
これらのプロセスに反するが結果の正しいロールアウトのトレーニングは幻覚と回答のコピーを引き起こし、モデルの一般化と堅牢性を著しく損なう。
これを解決するために、RLVRプロセスの一般化のために、コントラスト学習機構をポリシー最適化(CLIPO)に組み込む。
ロールアウトの成功に対して対照的な損失を最適化することにより、CLIPOはLLMを操り、正しい推論パス間で共有される不変構造をキャプチャする。
これにより、RLVRにおける元のシングルパス監視よりも堅牢なクロス軌道規則化が実現し、ステップレベルの推論の不整合を効果的に軽減し、幻覚的アーティファクトを抑制することができる。
実験では、CLIPOは様々な推論ベンチマークで複数のRLVRベースラインを一貫して改善し、LLMのポリシー最適化における一般化とロバスト性を均一に改善した。
私たちのコードとトレーニングのレシピはhttps://github.com/Qwen-Applications/CLIPOで公開されています。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning [18.477056077256233]
RLVRによる強化学習は大規模言語モデル(LLM)の推論能力を大幅に向上させる
現在のRLVRアプローチは、通常、生成されたトークンをまたいでトレーニングを行うが、どのトークン(例えばプレフィックストークン)が実際に推論に寄与するかを調査することは無視される。
本稿では,POP(Progressive Prefix-token Policy Optimization)と呼ばれる新しいRLVR手法を提案する。
論文 参考訳(メタデータ) (2025-12-17T10:26:11Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。