論文の概要: Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.14403v1
- Date: Tue, 20 May 2025 14:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.344239
- Title: Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning
- Title(参考訳): 石から未発見の宝石:LLM推論のための負のサンプル拡張による政策最適化
- Authors: Zhaohui Yang, Shilei Jiang, Chen Hu, Linjing Li, Shihong Deng, Daxin Jiang,
- Abstract要約: 負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 48.33401015101481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning language models have witnessed a paradigm shift from short to long CoT pattern. Given the substantial computational cost of rollouts in long CoT models, maximizing the utility of fixed training datasets becomes crucial. Our analysis reveals that negative responses contain valuable components such as self-reflection and error-correction steps, yet primary existing methods either completely discard negative samples (RFT) or apply equal penalization across all tokens (RL), failing to leverage these potential learning signals. In light of this, we propose Behavior Constrained Policy Gradient with Negative Sample Augmentation (BCPG-NSA), a fine-grained offline RL framework that encompasses three stages: 1) sample segmentation, 2) consensus-based step correctness assessment combining LLM and PRM judgers, and 3) policy optimization with NSA designed to effectively mine positive steps within negative samples. Experimental results show that BCPG-NSA outperforms baselines on several challenging math/coding reasoning benchmarks using the same training dataset, achieving improved sample efficiency and demonstrating robustness and scalability when extended to multiple iterations.
- Abstract(参考訳): 推論言語モデルの最近の進歩は、短いCoTパターンから長いCoTパターンへのパラダイムシフトを目撃している。
長いCoTモデルにおけるロールアウトのかなりの計算コストを考えると、固定トレーニングデータセットの有用性を最大化することが重要である。
分析の結果, 自己回帰や誤り訂正ステップなどの付加価値成分を負の応答として含むことが明らかとなったが, 既存の手法では正のサンプル(RFT)を完全に破棄するか, すべてのトークン(RL)に等額のペナル化を適用し, 潜在的な学習信号の活用に失敗した。
これを踏まえ、我々は3つの段階を含む詳細なオフラインRLフレームワークであるBCPG-NSA(Behavior Constrained Policy Gradient with Negative Sample Augmentation)を提案する。
1)サンプルセグメンテーション
2) LLM と PRM を併用したコンセンサスに基づくステップ正当性評価,及び
3) NSAによる政策最適化は、正のステップを負のサンプル内で効果的にマイニングするように設計されている。
実験結果から、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの難しい数学/コーディング推論ベンチマークのベースラインを上回り、サンプル効率を改善し、複数のイテレーションに拡張した場合の堅牢性とスケーラビリティを実証した。
関連論文リスト
- Can LLM-Driven Hard Negative Sampling Empower Collaborative Filtering? Findings and Potentials [9.668242919588199]
強い負のサンプルはモデル収束を加速し、決定境界を最適化する。
本稿ではセマンティックネガティブサンプリングの概念を紹介する。
協調信号によって制御される微調整LDMに基づくHNLMRecというフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-07T04:39:45Z) - Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs [15.806503459642665]
強化学習を用いた大規模言語モデルの微調整のための新しいアルゴリズムを提案する。
オフ政治体制における正と負の例を適切に活用することで、テスト時間精度とトレーニングデータの効率が同時に向上することを示す。
この研究の結果として、REINFORCEのベースラインパラメータが、ネガティブな例の存在下でデータセット構成を定義する上で、重要かつ予期せぬ役割を担っていることが判明した。
論文 参考訳(メタデータ) (2025-03-18T14:23:37Z) - TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge [59.57934574562651]
TRACT(Two-stage Regression-Aware fine-tuning with CoT)は、CoT推論と回帰学習を組み合わせた手法である。
4つの LLM-as-a-judge データセットと2つの LLM データセットによる実験により、TRACT が既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-06T12:33:20Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - PLReMix: Combating Noisy Labels with Pseudo-Label Relaxed Contrastive Representation Learning [7.556169113399857]
Pseudo-Label Relaxed (PLR) のコントラスト損失を導入することで、エンドツーエンドの textbfPLReMix フレームワークを提案する。
提案したPLR損失はプラガブルであり,他のLNL手法に統合し,その性能改善を観察した。
論文 参考訳(メタデータ) (2024-02-27T15:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。