論文の概要: Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2512.21625v1
- Date: Thu, 25 Dec 2025 11:15:46 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:43.492262
- Title: Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards
- Title(参考訳): 検証可能なリワードを用いた強化学習におけるサンプル極性の再考
- Authors: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 試料の偏光がRLVRトレーニングの力学と挙動に与える影響について検討する。
正のサンプルは既存の正しい推論パターンを鋭くし、負のサンプルは新たな推論経路の探索を奨励する。
政策最適化のための適応的・非対称なトークンレベルのアドバンテージ整形法を提案する。
- 参考スコア(独自算出の注目度): 57.11130904745293
- License:
- Abstract: Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模推論モデル(LRM)は、通常、その推論能力を高めるために、検証可能な報酬(RLVR)を用いた強化学習を用いて訓練される。
このパラダイムでは、異なるサンプル極性に対応する正と負の両方の自己生成ロールアウトを使用してポリシーを更新する。
本稿では,これらの試料の偏光がRLVRトレーニングの力学と挙動に与える影響について,系統的研究を行う。
正のサンプルは既存の正しい推論パターンを鋭くし、負のサンプルは新たな推論経路の探索を奨励する。
さらに,サンプルレベルとトークンレベルの両方において,正および負のサンプルの利点値の調整がRLVRトレーニングに与える影響について検討する。
これらの知見に基づき、A3POというポリシー最適化のための適応的および非対称なトークンレベルのアドバンテージ整形法を提案する。
5つの推論ベンチマークの実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- Causal Negative Sampling via Diffusion Model for Out-of-Distribution Recommendation [7.354459720418281]
ヒューリスティックな負サンプリングは、予め定義された候補プールから様々な硬度レベルの負のサンプルを選択することにより、推薦性能を高める。
候補プールにおける未観測環境共創者は、偽硬陰性(FHNS)をサンプリング法で導入する可能性がある
本稿では,この問題を解決するためにDiffusion (CNSDiff) を用いたCausal Negative Smpling という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-10T08:55:21Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Understanding and Achieving Efficient Robustness with Adversarial
Contrastive Learning [34.97017489872795]
Adversarial Supervised Contrastive Learning (ASCL)アプローチは、堅牢な精度の観点から最先端の防御を2.6%$上回る。
提案された選択戦略を持つASCLは、選択戦略なしでASCLと比較してわずか4,2.8%のプラスと6.3%のマイナスでさらに1.4%$改善を得ることができます。
論文 参考訳(メタデータ) (2021-01-25T11:57:52Z) - Understanding Negative Sampling in Graph Representation Learning [87.35038268508414]
最適化目標と結果のばらつきを決定するためには, 正のサンプリングと同様に負のサンプリングが重要であることを示す。
我々は,自己コントラスト近似による正の分布を近似し,メトロポリス・ハスティングスによる負のサンプリングを高速化するメトロポリス・ハスティングス(MCNS)を提案する。
提案手法は,リンク予測,ノード分類,パーソナライズドレコメンデーションを含む,下流グラフ学習タスクをカバーする5つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-05-20T06:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。