論文の概要: Forward versus Backward: Comparing Reasoning Objectives in Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2601.07199v1
- Date: Mon, 12 Jan 2026 04:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.214364
- Title: Forward versus Backward: Comparing Reasoning Objectives in Direct Preference Optimization
- Title(参考訳): 前方対後方:直接選好最適化における推論対象の比較
- Authors: Murtaza Nikzad, Raghuram Ramanujan,
- Abstract要約: 大きな言語モデルは印象的な推論能力を示すが、しばしば妥当だが間違ったソリューションを生成する。
本稿では,直接選好最適化による学習目標構成が推論信頼性に及ぼす影響について検討する。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit impressive reasoning capabilities yet frequently generate plausible but incorrect solutions, a phenomenon commonly termed hallucination. This paper investigates the effect of training objective composition on reasoning reliability through Direct Preference Optimization. Two complementary training signals are examined: forward chain-of-thought generation, which trains the model to produce correct reasoning traces, and backward verification, which trains the model to verify and acknowledge errors in candidate solutions. Experiments on GSM8K reveal a fundamental trade-off between these objectives. Forward-only DPO training achieves the highest accuracy improvement, increasing from 83.1% to 86.6% (+3.5 percentage points), while backward-only training yields minimal accuracy gains but substantially reduces the false positive rate from 13.4% to 4.3%. Notably, both training variants reduce acknowledgement rate compared to the baseline, suggesting that preference optimization increases model confidence in its outputs. These findings indicate that forward and backward reasoning objectives provide distinct and complementary learning signals: forward training improves problem-solving capability, while backward training improves verification calibration. The complete training and evaluation pipeline, implemented efficiently through Low-Rank Adaptation, is released to facilitate further research.
- Abstract(参考訳): 大規模言語モデルは、しばしばもっともらしいが誤った解を生成する印象的な推論能力を示すが、これは幻覚と呼ばれる現象である。
本稿では,直接選好最適化による学習目標構成が推論信頼性に及ぼす影響について検討する。
モデルが正しい推論トレースを生成するように訓練するフォワードチェーン・オブ・シント生成と、候補解の誤りを検証および認識するようモデルに訓練する後方検証の2つの相補的な訓練信号について検討した。
GSM8Kの実験は、これらの目的間の根本的なトレードオフを明らかにしている。
前向きのみのDPOトレーニングは83.1%から86.6%(+3.5ポイント)に増加し、後向きのみのトレーニングは最小限の精度向上をもたらすが、偽陽性率は13.4%から4.3%に大幅に減少する。
特に、どちらのトレーニング変種もベースラインと比較して認識率を低下させ、好みの最適化が出力のモデルの信頼性を高めることを示唆している。
これらの結果から,前向きと後向きの推論目的が相補的な学習信号を与え,前方トレーニングは問題解決能力を改善し,後方トレーニングは検証校正能力を向上させた。
Low-Rank Adaptationを通じて効率的に実装された、完全なトレーニングと評価パイプラインがリリースされ、さらなる研究が進められている。
関連論文リスト
- Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization [37.59050823977757]
チェーン・オブ・シンクレット(CoT)軌道上でのSFT(Supervised Fine-tuning)は、大規模言語モデルにおける推論を可能にする一般的なアプローチである。
通常、標準的なプラクティスは、正しい最終回答(陽性)を持つ軌跡を保ちながら、残り(陰性)を無視するのみである。
我々は、このパラダイムが相当な監督を放棄し、オーバーフィッティングを悪化させ、ドメイン外一般化(OOD)を制限すると論じている。
適応型サンプル認識方式であるGain-based LOss Weighting (GLOW)を提案する。
論文 参考訳(メタデータ) (2026-01-08T14:49:10Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning [38.67622953293653]
自己アライメント(MASA)によるメタアウェアネスを高めるトレーニングパイプラインを設計する。
既存のメタ認知推論モデルとは異なり、本手法は外部トレーニング源を必要としない。
我々の戦略は、ドメイン内タスクの精度とトレーニング効率の両方において、大幅な改善をもたらす。
論文 参考訳(メタデータ) (2025-09-26T14:05:48Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。