論文の概要: Self-Calibrating Language Models via Test-Time Discriminative Distillation
- arxiv url: http://arxiv.org/abs/2604.09624v1
- Date: Wed, 18 Mar 2026 13:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.569271
- Title: Self-Calibrating Language Models via Test-Time Discriminative Distillation
- Title(参考訳): テスト時間判別蒸留による自己校正言語モデル
- Authors: Mohamed Rissal Hedna, Jan Strich, Martin Semmann, Chris Biemann,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば間違って答える質問に対して体系的に過度に信頼されている。
我々は、テスト時間トレーニング(TTT)パイプラインである$textbfSECL$ ($textbfSE$lf-$textbfC$alibrating $textbfL$anguage Modelsを紹介します。
- 参考スコア(独自算出の注目度): 18.46710400838861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are systematically overconfident: they routinely express high certainty on questions they often answer incorrectly. Existing calibration methods either require labeled validation data, degrade under distribution shifts, or incur substantial inference costs. Recent work has shown that LLMs already contain a better-calibrated signal than the one they verbalize: the token probability of "True" when the model is asked "Is this answer correct?" ($P(\text{True})$) consistently outperforms their stated confidence, a gap that is theoretically grounded as generative error is lower-bounded by roughly twice the corresponding discriminative error. We introduce $\textbf{SECL}$ ($\textbf{SE}$lf-$\textbf{C}$alibrating $\textbf{L}$anguage Models), a test-time training (TTT) pipeline that exploits this gap as label-free self-supervision, requiring no labeled data or human supervision. SECL adapts only when the input distribution shifts, training on just 6--26% of the question stream at lower cost than the baseline it distills from. Across four small language models from three model families and four diverse domains, SECL reduces Expected Calibration Error (ECE) by 56--78%, outperforming its own supervision signal and matching or outperforming recent inference-time methods. SECL is the first method to apply TTT to calibration; seven ablations covering signal quality, gating strategy, weight accumulation, loss design, domain ordering, hyperparameter sensitivity, and layer selection confirm that each component is crucial and robust across configurations. Code: https://anonymous.4open.science/r/secl-emnlp26-submission-C890
- Abstract(参考訳): 大規模言語モデル (LLM) は体系的に過度に信頼されている。
既存のキャリブレーション法では、ラベル付き検証データが必要か、分散シフトで劣化するか、かなりの推論コストがかかる。
モデルが「この答えは正しいか?」(P(\text{True})$) という問合せを受けたときの "True" のトークン確率は、その主張された信頼度を一貫して上回っている。
我々は、ラベル付きデータや人間の監督を必要としないラベルなしのセルフスーパービジョンとして、このギャップを利用するテストタイムトレーニング(TTT)パイプラインである、$\textbf{SECL}$$$$\textbf{SE}$lf-$\textbf{C}$alibrating $\textbf{L}$anguage Modelsを紹介します。
SECLは、入力分布のシフト時にのみ適応し、3つのモデルファミリーと4つの多様なドメインからなる4つの小さな言語モデルのうち、SECLは期待される校正誤差(ECE)を56~78%削減し、独自の監視信号より優れ、近年の推論時間法よりも低いコストで質問ストリームの6~26%のトレーニングを行う。
SECLは、TTTをキャリブレーションに適用する最初の方法であり、信号品質、ゲーティング戦略、重量蓄積、損失設計、ドメイン順序付け、ハイパーパラメータ感度、層選択の7つの改善により、各コンポーネントが構成において重要かつ堅牢であることが確認されている。
コード:https://anonymous.4open.science/r/secl-emnlp26-submission-C890
関連論文リスト
- The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning [18.69627681731888]
オンライン推論校正(英語: Online Reasoning calibration、ORCA)は、整合予測とテストタイムトレーニングに基づいてサンプリングプロセスを校正するフレームワークである。
リスクレベルの$=0.1$で、ORCAはQwen2.5-32B効率を改善し、47.5%、監督ラベル40.7%、自己整合ラベル40.7%を節約する。
論文 参考訳(メタデータ) (2026-04-01T17:21:50Z) - Cross-Model Disagreement as a Label-Free Correctness Signal [10.66607150500579]
クロスモデル不一致は、既存の生産システムにドロップできる正確性指標である。
検証モデルからの生成は不要であり、正当性ラベルは不要である。
その結果、ラベルなしの正当性推定に対する実践的で訓練のないアプローチとして、クロスモデル不一致が確立された。
論文 参考訳(メタデータ) (2026-03-26T13:46:22Z) - You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs [50.54173262572369]
大規模言語モデル (LLM) は、金融、医療、農業などの専門分野にますます導入されている。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
論文 参考訳(メタデータ) (2025-10-11T14:00:39Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。