論文の概要: EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2601.06786v1
- Date: Sun, 11 Jan 2026 06:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.984393
- Title: EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs
- Title(参考訳): EpiCaR: LLMの推論を改善するために、何が重要かを知る
- Authors: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim,
- Abstract要約: 既存のアプローチは成功した推論パスを強化し、かなりのキャリブレーションコストを発生させる。
この失敗は、アライメントにおけるモデル崩壊の一形態として特徴づけられている。
推論性能とキャリブレーションを協調的に最適化する訓練目標として,EpiCaRを提案する。
- 参考スコア(独自算出の注目度): 9.412828452977553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の向上は、モデル生成データによる反復的な自己学習に大きく依存している。
精度を高めるのに効果的であるが、既存のアプローチは主に成功した推論経路を強化し、かなりのキャリブレーションコストがかかる:モデルは過信され不確実性を表す能力を失う。
この故障はモデル崩壊の一形態として特徴づけられ、予測分布は低分散点推定値に縮退する。
我々は、モデルが推論の仕方を学習するだけでなく、推論を信頼すべき時にも学習しなければならないという認識論的学習問題として、推論トレーニングを緩和することでこの問題に対処する。
本稿では,推論性能とキャリブレーションを協調的に最適化する学習目標として認識論的校正推論(EpiCaR)を提案し,それを明示的な自己評価信号を用いて反復的教師付き微調整フレームワーク内でインスタンス化する。
Llama-3 および Qwen-3 ファミリーに対する実験により,精度とキャリブレーションの両面で標準ベースラインよりもパレート優位性を達成できることが実証された。
このフレームワークは、OOD数学的推論(GSM8K)とコード生成(MBPP)に効果的に一般化する。
最終的に,本手法は,STaRのK=30性能を,有能なモデルでK=10サンプルのみと整合させることにより,推論計算の3倍の削減を可能にする。
関連論文リスト
- Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。