論文の概要: Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs
- arxiv url: http://arxiv.org/abs/2511.04869v1
- Date: Thu, 06 Nov 2025 23:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.615391
- Title: Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs
- Title(参考訳): LLMにおけるセマンティックキャリブレーションの創発
- Authors: Preetum Nakkiran, Arwen Bradley, Adam Goliński, Eugene Ndiaye, Michael Kirchhof, Sinead Williamson,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば出力に対する有意義な自信の見積を欠いている。
セマンティックキャリブレーション(セマンティックキャリブレーション)という特定のサンプリングに基づく概念を用いると,ベースLLMは極めてよく校正されていることがわかった。
- 参考スコア(独自算出の注目度): 12.531916120519176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often lack meaningful confidence estimates for their outputs. While base LLMs are known to exhibit next-token calibration, it remains unclear whether they can assess confidence in the actual meaning of their responses beyond the token level. We find that, when using a certain sampling-based notion of semantic calibration, base LLMs are remarkably well-calibrated: they can meaningfully assess confidence in open-domain question-answering tasks, despite not being explicitly trained to do so. Our main theoretical contribution establishes a mechanism for why semantic calibration emerges as a byproduct of next-token prediction, leveraging a recent connection between calibration and local loss optimality. The theory relies on a general definition of "B-calibration," which is a notion of calibration parameterized by a choice of equivalence classes (semantic or otherwise). This theoretical mechanism leads to a testable prediction: base LLMs will be semantically calibrated when they can easily predict their own distribution over semantic answer classes before generating a response. We state three implications of this prediction, which we validate through experiments: (1) Base LLMs are semantically calibrated across question-answering tasks, (2) RL instruction-tuning systematically breaks this calibration, and (3) chain-of-thought reasoning breaks calibration. To our knowledge, our work provides the first principled explanation of when and why semantic calibration emerges in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば出力に対する有意義な自信の見積を欠いている。
ベースLSMは次点校正を示すことが知られているが、トークンレベルを超えて実際の応答の信頼性を評価できるかどうかは不明である。
特定のサンプリングに基づくセマンティックキャリブレーションの概念を用いる場合、ベースLLMは、明示的に訓練されていないにもかかわらず、オープンドメインの質問応答タスクに対する信頼性を有意に評価できるという、極めてよく校正されている。
我々の主要な理論的貢献は、最近のキャリブレーションと局所的損失最適性との結びつきを利用して、セマンティックキャリブレーションが次のトーケン予測の副産物として現れる理由のメカニズムを確立することである。
この理論は"B-キャリブレーション"という一般的な定義に依存しており、これは同値類の選択によってパラメータ化されるキャリブレーションの概念である。
ベースLSMは、応答を生成する前に、セマンティック応答クラス上の自身の分布を簡単に予測できる場合に、セマンティックに校正される。
この予測は,(1)ベースLLMは質問応答タスクに対して意味論的に校正され,(2)RLインストラクションチューニングはこの校正を体系的に破り,(3)チェーン・オブ・シント推論は校正を破る,という3つの意味を持つ。
我々の知る限り、我々の研究は、LLMに意味的キャリブレーションが出現する時期と理由について、最初の原則的な説明を提供する。
関連論文リスト
- Calibration Across Layers: Understanding Calibration Evolution in LLMs [22.333229451408414]
大規模言語モデル(LLM)は、予測された確率が正確さとうまく一致する固有のキャリブレーション能力を示している。
近年の研究では、エントロピーニューロンや非埋め込み行列ヌル空間のような最終層の特定の成分にこの挙動を関連付けている。
キャリブレーションは最終射影だけでなく,ネットワーク前方パス全体に形成される分散現象であることを示す。
論文 参考訳(メタデータ) (2025-10-31T21:58:31Z) - Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns [67.24756301536617]
本稿では,正確で校正された信頼度を推定する一般化精度モデル(GCM)を提案する。
まず,多くのLCMの正当性データに基づいてGCMをトレーニングできることを示す。
次に,CMをレンズとして,補正予測能力の源泉とその一般化について検討する。
論文 参考訳(メタデータ) (2025-09-29T16:19:01Z) - To Trust or Not to Trust: On Calibration in ML-based Resource Allocation for Wireless Networks [11.718895971015339]
本稿では,MLに基づく単一ユーザ複数リソースアロケーションフレームワークにおける停止予測器の校正性能について検討する。
まず、このシステムの停止確率(OP)の重要な理論的特性を完全キャリブレーションの下で確立する。
資源の数が増加するにつれて、完全に校正された予測器のOPが、分類しきい値以下である期待出力に近づくことを示す。
論文 参考訳(メタデータ) (2025-07-23T13:23:43Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。
本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2024-08-31T05:12:36Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。