論文の概要: Hard Negative Sample-Augmented DPO Post-Training for Small Language Models
- arxiv url: http://arxiv.org/abs/2512.19728v1
- Date: Wed, 17 Dec 2025 06:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.600684
- Title: Hard Negative Sample-Augmented DPO Post-Training for Small Language Models
- Title(参考訳): 小言語モデルのためのハード負のサンプル拡張DPOポストトレーニング
- Authors: Haocheng Lu, Minjun Zhu, Henry Yu,
- Abstract要約: 本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。
本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。
実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 4.425580048633862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) continue to struggle with mathematical reasoning, and common post-training pipelines often reduce each generated solution to a binary outcome: correct or incorrect. This perspective is limiting in practice, as failures in chain-of-thought (CoT) reasoning are frequently structured; solutions may appear convincing while containing subtle logical, algebraic, or numerical flaws. Meanwhile, reinforcement learning from human feedback (RLHF) variants that rely on large reward models or LLM-as-a-judge signals are often expensive, difficult to scale, and unstable to iterate. We propose a lightweight and pragmatic post-training pipeline that targets such structured errors under realistic compute budgets. Starting from supervised fine-tuning (SFT) on MetaMathQA-style CoT data, we introduce a compact MathVerifier that decomposes a candidate solution into a six-dimensional error profile and aggregates it into interpretable wrongness and absurdity scores. These verifier signals serve two roles: (i) mining hard negatives that are near-correct yet structurally flawed, and (ii) defining per-sample importance weights that emphasize the most informative preference pairs. We integrate both into an offline Direct Preference Optimization (DPO) objective via a verifier-guided weighted formulation. Experiments on a 1.5B-parameter Qwen2.5 model show that verifier-guided, weighted DPO yields more targeted improvements than vanilla SFT and unweighted DPO, particularly on problems where solutions are numerically close to correct but logically inconsistent, while avoiding the overhead of training large reward models or relying on external judges.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論に苦戦し続けており、一般的なポストトレーニングパイプラインは、生成した各ソリューションを2つの結果(正しいか間違っているか)に還元することが多い。
この観点は、チェーン・オブ・ソート(CoT)推論の失敗が頻繁に構造化されるため、実際には制限されている。
一方、大きな報酬モデルやLSM-as-a-judge信号に依存する人間フィードバック(RLHF)による強化学習は高価であり、スケールが難しく、反復が不安定であることが多い。
本稿では,現実的な計算予算の下で,そのような構造化エラーを対象とする軽量で実用的なポストトレーニングパイプラインを提案する。
メタマスQA型CoTデータの教師付き微調整(SFT)から始め,6次元の誤差プロファイルに候補解を分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを導入する。
これらの検証信号は2つの役割を果たす。
一 ほぼ正確で構造上の欠陥がある硬い負を採掘し、
(II)最も有意義な選好ペアを強調するサンプル単位の重みを定義する。
我々は、検証器誘導重み付き定式化により、オフラインの直接参照最適化(DPO)の目的に統合する。
1.5BパラメータQwen2.5モデルの実験では、検証対象の重み付きDPOは、バニラSFTや非重み付きDPOよりも目標となる改善をもたらすことが示されている。
関連論文リスト
- Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs [85.37131922131657]
我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T03:02:55Z) - Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。