論文の概要: Unlocking the Pre-Trained Model as a Dual-Alignment Calibrator for Post-Trained LLMs
- arxiv url: http://arxiv.org/abs/2601.04277v1
- Date: Wed, 07 Jan 2026 12:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.853642
- Title: Unlocking the Pre-Trained Model as a Dual-Alignment Calibrator for Post-Trained LLMs
- Title(参考訳): 後LLM用デュアルアライメントキャリブレータとしての事前学習モデルの解錠
- Authors: Beier Luo, Cheng Wang, Hongxin Wei, Sharon Li, Xuefeng Du,
- Abstract要約: ポストトレーニングは、大きな言語モデル(LLM)を改善するが、しばしば信頼性のキャリブレーションが悪化し、体系的な過信につながる。
ポストトレーニング後LM (PoLMs) の非教師的ポストホック法は、PoLMの信頼性を十分に校正されたプレトレーニング後のものと整合させることによってこれを緩和する。
キャリブレーション誤差は, ほぼ一貫した中間決定過程に拘わらず, 最終信頼が膨らむ信頼ドリフトと, 中間推論経路が分岐するプロセスドリフトの2つの状態から生じることを示す。
- 参考スコア(独自算出の注目度): 29.454825941938054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training improves large language models (LLMs) but often worsens confidence calibration, leading to systematic overconfidence. Recent unsupervised post-hoc methods for post-trained LMs (PoLMs) mitigate this by aligning PoLM confidence to that of well-calibrated pre-trained counterparts. However, framing calibration as static output-distribution matching overlooks the inference-time dynamics introduced by post-training. In particular, we show that calibration errors arise from two regimes: (i) confidence drift, where final confidence inflates despite largely consistent intermediate decision processes, and (ii) process drift, where intermediate inference pathways diverge. Guided by this diagnosis, we propose Dual-Align, an unsupervised post-hoc framework for dual alignment in confidence calibration. Dual-Align performs confidence alignment to correct confidence drift via final-distribution matching, and introduces process alignment to address process drift by locating the layer where trajectories diverge and realigning the stability of subsequent inference. This dual strategy learns a single temperature parameter that corrects both drift types without sacrificing post-training performance gains. Experiments show consistent improvements over baselines, reducing calibration errors and approaching a supervised oracle.
- Abstract(参考訳): ポストトレーニングは、大きな言語モデル(LLM)を改善するが、しばしば信頼性のキャリブレーションが悪化し、体系的な過信につながる。
ポストトレーニング後LM (PoLMs) の非教師的ポストホック法は、PoLMの信頼性を十分に校正されたプレトレーニング後のものと整合させることによってこれを緩和する。
しかし、静的な出力分布マッチングとしてのフレーミングキャリブレーションは、ポストトレーニングによって導入された推論時間ダイナミクスを無視する。
特に、キャリブレーションエラーは2つのレジームから生じることを示す。
一 ほぼ一貫した中間決定プロセスに拘わらず、最終的な信頼が膨らむ信頼の漂流
(ii) 中間推論経路が分岐するプロセスドリフト。
この診断で導かれたDual-Alignは、信頼性校正における二重アライメントのための教師なしのポストホックフレームワークである。
Dual-Alignは、最終分布マッチングによる信頼性ドリフトの補正のための信頼性アライメントを行い、トラジェクトリが分岐する層を配置し、その後の推論の安定性を実現することによって、プロセスアライメントに対処するプロセスアライメントを導入する。
この二重戦略は、トレーニング後の性能向上を犠牲にすることなく、両方のドリフトタイプを補正する単一温度パラメータを学習する。
実験では、基準線よりも一貫した改善が見られ、校正誤差を低減し、監督されたオラクルに近づいた。
関連論文リスト
- Towards Calibrating Prompt Tuning of Vision-Language Models [40.60254526955107]
本稿では,事前学習したCLIP埋め込み空間の幾何を保存しながら,予測信頼性を高めるキャリブレーションフレームワークを提案する。
提案手法は, 基本クラスと新規クラスの競合校正手法と比較して, 期待誤差(ECE)を著しく低減する。
論文 参考訳(メタデータ) (2026-02-22T03:26:23Z) - UAT-LITE: Inference-Time Uncertainty-Aware Attention for Pretrained Transformers [11.741258610945259]
UAT-LITEは、自己アテンションの不確実性を認識させる推論時フレームワークである。
これは、細調整されたBERTベースラインと比較して平均で予測エラーを約20%削減する。
分散シフトの下で選択的な予測とロバスト性を改善する。
論文 参考訳(メタデータ) (2026-02-03T00:51:26Z) - Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning [10.123352394689134]
よく校正された信頼性により、下流のシステムは、いつモデルを信頼するか、いつフォールバックメカニズムを延期するかを決定できる。
RLVRはタスク性能を向上するが、極めて自信過剰なモデルを生成する。
本稿では,意思決定確率を直接調整するキャリブレーション対応強化学習の定式化を提案する。
論文 参考訳(メタデータ) (2026-01-19T18:31:31Z) - Probabilistic Fusion and Calibration of Neural Speaker Diarization Models [1.3309507124779971]
本稿では,確率レベルでのEDEモデルの校正と融合を行うための,最初の包括的枠組みを提案する。
適切なキャリブレーションが個々のモデルに対しても大幅な改善をもたらすことを示す。
我々の最高の構成は、ダウンストリームアプリケーションに不可欠な信頼性の見積を提供しながら、DERの点でDOVER-Lapよりも優れています。
論文 参考訳(メタデータ) (2025-11-27T18:50:16Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator [20.81467363927836]
ポストトレーニングされた言語モデル(PoLM)は、しばしば過剰な自信に悩まされ、正しい出力と間違った出力の両方に高い信頼を割り当てる。
PoLMの校正における大きな障害は、個々の下流タスクのためのラベル付きデータの不足である。
本稿では,時間後信頼度校正におけるパラメータを最適化するために,DACA(Disagreement-Aware Confidence Alignment)を提案する。
論文 参考訳(メタデータ) (2025-05-22T13:55:39Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。