論文の概要: ReNCE: Learning to Reason by Noise Contrastive Estimation
- arxiv url: http://arxiv.org/abs/2601.22432v1
- Date: Fri, 30 Jan 2026 00:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.134656
- Title: ReNCE: Learning to Reason by Noise Contrastive Estimation
- Title(参考訳): ReNCE:ノイズコントラスト推定による推論学習
- Authors: Wenzheng Zhang, Karl Stratos,
- Abstract要約: GRPOは、事前訓練されたLLMに推論機能を持たせるための標準的なアプローチである。
優位性を推定する代わりに、正と負の集合に$K$の結果を二分する。
- 参考スコア(独自算出の注目度): 7.590073864595161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GRPO is a standard approach to endowing pretrained LLMs with reasoning capabilities. It estimates the advantage of an outcome from a group of $K$ outcomes, and promotes those with positive advantages inside a trust region. Since GRPO discriminates between good and bad outcomes softly, it benefits from additional refinements such as asymmetric clipping and zero-variance data filtering. While effective, these refinements require significant empirical insight and can be challenging to identify. We instead propose an explicit contrastive learning approach. Instead of estimating advantages, we bifurcate $K$ outcomes into positive and negative sets, then maximize the likelihood of positive outcomes. Our approach can be viewed as an online instantiation of (multi-label) noise contrastive estimation for LLM reasoning. We validate our method by demonstrating competitive performance on a suite of challenging math benchmarks against strong baselines such as DAPO and online DPO.
- Abstract(参考訳): GRPOは、事前訓練されたLLMに推論機能を持たせるための標準的なアプローチである。
これは、$K$の結果の利点を見積もり、信頼領域内で肯定的な優位性を持つものを促進する。
GRPOは良い結果と悪い結果とをソフトに区別するので、非対称クリッピングやゼロ分散データフィルタリングといったさらなる改良の恩恵を受ける。
効果はあるものの、これらの改良には重要な経験的洞察が必要であり、特定することは困難である。
代わりに、明示的な対照的な学習アプローチを提案する。
利点を推定する代わりに、$K$の結果を正と負の集合に二分し、正の結果の確率を最大化する。
提案手法は,LLM推論のための(複数ラベルの)ノイズコントラスト推定のオンラインインスタンス化とみなすことができる。
我々は,DAPOやオンラインDPOといった強力なベースラインに対して,挑戦的なベンチマークのスイート上での競合性能を実証し,本手法の有効性を検証した。
関連論文リスト
- Your Group-Relative Advantage Is Biased [74.57406620907797]
グループベースの学習手法は、学習評論家を避けるためにグループ相対的な優位性推定に依存する。
群相対的優位推定器は、真の(予想された)優位性に対して本質的に偏りがある。
適応的再重み付け方式であるヒストリー・アウェア適応困難度重み付け(HA-DW)を提案する。
論文 参考訳(メタデータ) (2026-01-13T13:03:15Z) - Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - Correct and Weight: A Simple Yet Effective Loss for Implicit Feedback Recommendation [36.820719132176315]
本稿では,CW損失(Corrected and Weighted, CW損失)という,新規で原則化された損失関数を提案する。
CW損失は訓練対象内の偽陰性の影響を体系的に補正する。
4つの大規模でスパースなベンチマークデータセットで実施された実験は、提案した損失の優越性を実証している。
論文 参考訳(メタデータ) (2026-01-07T15:20:27Z) - Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards [17.695285420477035]
オフポリシーRLと教師付き微調整の中間領域のアルゴリズムについて検討する。
まず、このオフポリティREINFORCEアルゴリズムの理論的解析を行う。
我々の分析によると、オンライン更新はポジティブな信号とネガティブな信号の両方を安全に活用できるが、オフライン更新は、ネガティブな信号よりもポジティブな報酬にフォーカスすることの恩恵を受ける。
論文 参考訳(メタデータ) (2025-06-25T15:07:16Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。