論文の概要: Not All Negative Samples Are Equal: LLMs Learn Better from Plausible Reasoning
- arxiv url: http://arxiv.org/abs/2602.03516v2
- Date: Wed, 04 Feb 2026 04:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.814549
- Title: Not All Negative Samples Are Equal: LLMs Learn Better from Plausible Reasoning
- Title(参考訳): すべての否定的なサンプルが同じではない: LLMはプラウジブル推論から学ぶ
- Authors: Zixiang Di, Jinyi Han, Shuo Zhang, Ying Liao, Zhi Li, Xiaofeng Ji, Yongqi Wang, Zheming Yang, Ming Gao, Bingdong Li, Jie Wang,
- Abstract要約: Plausible Negative Samples (PNS) は、予測フォーマットと構造コヒーレンスを示す高品質な負のサンプルを合成する手法である。
PNSは、フォーマットコンプライアンス、精度逆転、チェーンオブ思考評価を組み合わせた複合報酬によって導かれる逆強化学習を通じて、専用モデルを訓練する。
PNSは他の負のサンプル法を一貫して上回り、RL訓練モデルよりも平均2.03%改善した。
- 参考スコア(独自算出の注目度): 23.352305094623123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from negative samples holds great promise for improving Large Language Model (LLM) reasoning capability, yet existing methods treat all incorrect responses as equally informative, overlooking the crucial role of sample quality. To address this, we propose Plausible Negative Samples (PNS), a method that synthesizes high-quality negative samples exhibiting expected format and structural coherence while ultimately yielding incorrect answers. PNS trains a dedicated model via reverse reinforcement learning (RL) guided by a composite reward combining format compliance, accuracy inversion, reward model assessment, and chain-of-thought evaluation, generating responses nearly indistinguishable from correct solutions. We further validate PNS as a plug-and-play data source for preference optimization across three backbone models on seven mathematical reasoning benchmarks. Results demonstrate that PNS consistently outperforms other negative sample synthesis methods, achieving an average improvement of 2.03% over RL-trained models.
- Abstract(参考訳): 負のサンプルから学ぶことは、Large Language Model (LLM)推論能力を改善するための大きな約束である。
そこで本研究では,予測形式と構造的コヒーレンスを示す高品質な負のサンプルを合成し,最終的には誤った回答を導き出す手法であるPlansible Negative Samples (PNS)を提案する。
PNSは、形式コンプライアンス、精度逆転、報酬モデル評価、チェーン・オブ・思想評価を組み合わせた複合報酬によって導かれる逆強化学習(RL)を介して専用モデルを訓練し、正しい解とほとんど区別できない応答を生成する。
さらに、7つの数学的推論ベンチマークを用いて、3つのバックボーンモデル間での好み最適化のためのプラグアンドプレイデータソースとしてPSNを検証する。
その結果, PNSはRL学習モデルよりも平均2.03%向上し, 他の陰性試料合成法より一貫して優れていた。
関連論文リスト
- Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold [41.28168368547099]
モデル生成合成データのトレーニングは、LLMを微調整する上で有望なアプローチであるが、それがいつ役に立つかは、まだ不明である。
ステップごとの負のトレーニングは、ポジティブなデータにおける突発的な相関を解き放つのに役立ちます。
論文 参考訳(メタデータ) (2024-06-20T17:45:54Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。