論文の概要: Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization
- arxiv url: http://arxiv.org/abs/2601.04992v1
- Date: Thu, 08 Jan 2026 14:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.240222
- Title: Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization
- Title(参考訳): 誤解から学ぶ: 負の推論サンプルはドメイン外の一般化を引き起こす
- Authors: Xueyun Tian, Minghua Ma, Bingbing Xu, Nuoyan Lyu, Wei Li, Heng Dong, Zheng Chu, Yuanzhuo Wang, Huawei Shen,
- Abstract要約: チェーン・オブ・シンクレット(CoT)軌道上でのSFT(Supervised Fine-tuning)は、大規模言語モデルにおける推論を可能にする一般的なアプローチである。
通常、標準的なプラクティスは、正しい最終回答(陽性)を持つ軌跡を保ちながら、残り(陰性)を無視するのみである。
我々は、このパラダイムが相当な監督を放棄し、オーバーフィッティングを悪化させ、ドメイン外一般化(OOD)を制限すると論じている。
適応型サンプル認識方式であるGain-based LOss Weighting (GLOW)を提案する。
- 参考スコア(独自算出の注目度): 37.59050823977757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) on chain-of-thought (CoT) trajectories demonstrations is a common approach for enabling reasoning in large language models. Standard practices typically only retain trajectories with correct final answers (positives) while ignoring the rest (negatives). We argue that this paradigm discards substantial supervision and exacerbates overfitting, limiting out-of-domain (OOD) generalization. Specifically, we surprisingly find that incorporating negative trajectories into SFT yields substantial OOD generalization gains over positive-only training, as these trajectories often retain valid intermediate reasoning despite incorrect final answers. To understand this effect in depth, we systematically analyze data, training dynamics, and inference behavior, identifying 22 recurring patterns in negative chains that serve a dual role: they moderate loss descent to mitigate overfitting during training and boost policy entropy by 35.67% during inference to facilitate exploration. Motivated by these observations, we further propose Gain-based LOss Weighting (GLOW), an adaptive, sample-aware scheme that exploits such distinctive training dynamics by rescaling per-sample loss based on inter-epoch progress. Empirically, GLOW efficiently leverages unfiltered trajectories, yielding a 5.51% OOD gain over positive-only SFT on Qwen2.5-7B and boosting MMLU from 72.82% to 76.47% as an RL initialization.
- Abstract(参考訳): チェーン・オブ・シンクレット(CoT)軌道上でのSFT(Supervised Fine-tuning)は、大規模言語モデルにおける推論を可能にする一般的なアプローチである。
通常、標準のプラクティスは正しい最終回答(正の値)を持つ軌跡を保ちながら、残り(負の値)を無視します。
我々は、このパラダイムが相当な監督を放棄し、オーバーフィッティングを悪化させ、ドメイン外一般化(OOD)を制限すると論じている。
具体的には, 負の軌道をSFTに組み込むことで, 正のみの学習よりもOODの一般化が著しく向上することが予想される。
この効果を深く理解するために、我々は、データ、トレーニングダイナミクス、推論の振る舞いを体系的に分析し、二重の役割を担う負の連鎖における22の繰り返しパターンを同定し、トレーニング中の過剰適合を緩和し、推論中のポリシーエントロピーを35.67%向上させ、探索を容易にする。
これらの観測により, 適応型サンプル認識方式であるGain-based LOss Weighting (GLOW) が提案される。
実験的に、GLOWは未濾過軌道を効率よく利用し、Qwen2.5-7B上の正のみのSFTよりも5.51%のOODゲインを獲得し、RL初期化としてMMLUを72.82%から76.47%に向上させた。
関連論文リスト
- Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization [37.96314154235252]
本稿では,正しいロールアウトの時間に基づく学習信号を,不正なロールアウトから切り離す新しいフレームワークを提案する。
1.5Bモデルでは,単純な質問に対して1.1%の性能損失しか得られず,77%の長さ削減を実現している。
論文 参考訳(メタデータ) (2025-10-06T04:18:13Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。