論文の概要: The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2604.16830v1
- Date: Sat, 18 Apr 2026 04:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.192268
- Title: The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation
- Title(参考訳): 確実性のイラシオン: オン・ポリシィ蒸留における脱カップリング能力と校正
- Authors: Jiaxin Zhang, Xiangyu Peng, Qinglin Chen, Qinyuan Ye, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
- 参考スコア(独自算出の注目度): 67.26315138466312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD
- Abstract(参考訳): オンライン蒸留(OPD)は、ポストトレーニング後の言語モデルにとって、ますます重要なパラダイムである。
OPDはタスクの精度を効果的に向上するが、過度な自信でモデルを体系的にトラップする。
教師の監督は、トレーニング中に利用可能な特権的なコンテキストの下で形成され、デプロイされたモデルは、デプロイメント時情報のみを使用して信頼性を報告する必要があります。
この視点を理論的に定式化し、教師の条件付き成功は一般的にデプロイメント時の信頼性の有効な目標ではなく、補助的な特権付きコンテキストはエントロピー崩壊と体系的な楽観的バイアスを引き起こすことを示した。
そこで本研究では, モデルロールアウトから経験的信頼度を推定し, 自己申告された信頼度を, 学生が対象とする目標に置き換えるキャリブレーション対応のOPDフレームワークCaOPDを提案する。
様々なモデルや領域にわたる実験により、CaOPDは競争力を維持しながらパレート最適校正を達成し、アウト・オブ・ディストリビューションと連続学習の下で頑健に一般化することが示された。
以上の結果から, 蒸留能力は信頼性を指標とせず, 信頼性を訓練後の重要目標として扱うべきであることが示唆された。
コード:https://github.com/SalesforceAIResearch/CaOPD
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文 参考訳(メタデータ) (2026-02-13T03:40:52Z) - Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning [10.123352394689134]
よく校正された信頼性により、下流のシステムは、いつモデルを信頼するか、いつフォールバックメカニズムを延期するかを決定できる。
RLVRはタスク性能を向上するが、極めて自信過剰なモデルを生成する。
本稿では,意思決定確率を直接調整するキャリブレーション対応強化学習の定式化を提案する。
論文 参考訳(メタデータ) (2026-01-19T18:31:31Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - CARIL: Confidence-Aware Regression in Imitation Learning for Autonomous Driving [0.0]
エンドツーエンドの視覚に基づく模倣学習は、自動運転の有望な結果を証明している。
従来のアプローチでは、正確な制御を提供するレグレッションベースモデルと、信頼性スコアを提供するが、離散化による精度の低下に悩まされる分類ベースモデルのいずれかに依存している。
我々は、回帰と分類の両ヘッドを統合したデュアルヘッドニューラルネットワークアーキテクチャを導入し、模倣学習における決定信頼性を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:19:02Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。