論文の概要: Correctness-Optimized Residual Activation Lens (CORAL): Transferrable and Calibration-Aware Inference-Time Steering
- arxiv url: http://arxiv.org/abs/2602.06022v1
- Date: Thu, 05 Feb 2026 18:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.144171
- Title: Correctness-Optimized Residual Activation Lens (CORAL): Transferrable and Calibration-Aware Inference-Time Steering
- Title(参考訳): 正当性最適化残効性レンズ(CORAL) : 転送性および校正性を考慮した推論時間ステアリング
- Authors: Miranda Muqing Miao, Young-Min Cho, Lyle Ungar,
- Abstract要約: 重み付きデカイプローブを用いて、モデル内部のアクティベーションから正当性信号を捕捉する正規化時間ステアリング法であるCORALを導入する。
コラルは、常に精度を10%改善し、期待キャリブレーション誤差(ECE)を平均50%改善する。
本結果は,個々のニューロンが不十分な場合,正規化プローブを用いてモデル内部の分散情報を抽出できるという仮説を支持する。
- 参考スコア(独自算出の注目度): 3.7758197704962835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit persistent miscalibration, especially after instruction tuning and preference alignment. Modified training objectives can improve calibration, but retraining is expensive. Inference-time steering offers a lightweight alternative, yet most existing methods optimize proxies for correctness rather than correctness itself. We introduce CORAL (Correctness-Optimized Residual Activation Lens), a regularized inference-time steering method that captures distributed correctness signals from model internal activations using weight-decay MLP probes. We evaluate CORAL across three 7B-parameter models and find that it consistently improves accuracy by 10\% and expected calibration error (ECE) by 50\% on average. We additionally demonstrate that these gains transfer without retraining to the complete published test sets of four held-out benchmarks (ARC-Challenge, HellaSwag, Math-MC, OpenBookQA), averaging 14\% accuracy improvements and 49\% ECE improvements. Our results support the hypothesis that distributed information in model internals can be extracted using regularized probes when individual neurons are insufficient. CORAL thus provides a compute-efficient, transferable, and calibration-aware approach to improve MCQA performance during inference.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、特に命令のチューニングや好みのアライメントの後に、永続的な誤校正を示す。
修正された訓練目的は校正を改善することができるが、再訓練は高価である。
推論時ステアリングは軽量な代替手段を提供するが、既存のほとんどのメソッドは、正確性自体よりも正確性のためにプロキシを最適化している。
重み付きMLPプローブを用いてモデル内部のアクティベーションから分散正当性信号をキャプチャする正規化推論時ステアリング法であるCORAL(Correctness-Optimized Residual Activation Lens)を導入する。
3つの 7B パラメータモデルに対して CORAL を評価し,精度を 10 % 改善し,キャリブレーション誤差 (ECE) を平均 50 % 改善することを確認した。
さらに、これらのゲインは、4つのホールトアウトベンチマーク(ARC-Challenge、HellaSwag、Math-MC、OpenBookQA)の完全なテストセットに再トレーニングすることなく、平均14 %の精度改善と49 %のECE改善を達成できることを示す。
本結果は,個々のニューロンが不十分な場合,正規化プローブを用いてモデル内部の分散情報を抽出できるという仮説を支持する。
したがって、CORALは推論時のMCQA性能を改善するために、計算効率が高く、転送可能で、キャリブレーション対応のアプローチを提供する。
関連論文リスト
- CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Fill In The Gaps: Model Calibration and Generalization with Synthetic Data [2.89287673224661]
本稿では,合成データを精度良く組み込んだキャリブレーション手法を提案する。
本稿では,予測校正誤差(ECE)をPAC学習フレームワークを用いて導出する。
平均34%の精度, 33%のECE低下を認めた。
論文 参考訳(メタデータ) (2024-10-07T23:06:42Z) - Calibrating Language Models with Adaptive Temperature Scaling [58.056023173579625]
本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。
ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
論文 参考訳(メタデータ) (2024-09-29T22:54:31Z) - Towards Unbiased Calibration using Meta-Regularization [6.440598446802981]
2つのコンポーネントを持つメタ正則化により、より良い校正モデルを学ぶことを提案する。
ニューラルネットワークを3つのコンピュータビジョンデータセット上で改善し、偏りのないキャリブレーションに正規化するための提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-27T10:00:50Z) - AdaFocal: Calibration-aware Adaptive Focal Loss [8.998525155518836]
焦点損失のあるトレーニングは、クロスエントロピーよりもキャリブレーションが優れている。
AdaFocal と呼ばれる適応型焦点損失を校正する手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T20:19:24Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Calibrated and Sharp Uncertainties in Deep Learning via Density Estimation [10.209143402485406]
本稿では, キャリブレーションが重要であり, 維持が容易であることを論じる。
校正されたモデルを生成する再校正に基づく簡単なトレーニング手順を導入し、全体的な性能を犠牲にしない。
論文 参考訳(メタデータ) (2021-12-14T06:19:05Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。