論文の概要: Are LLM Uncertainty and Correctness Encoded by the Same Features? A Functional Dissociation via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2604.19974v1
- Date: Tue, 21 Apr 2026 20:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.837308
- Title: Are LLM Uncertainty and Correctness Encoded by the Same Features? A Functional Dissociation via Sparse Autoencoders
- Title(参考訳): LLMの不確かさと誤りは同一の特徴によって符号化されているか?スパースオートエンコーダによる機能的解離
- Authors: Het Patel, Tiejin Chen, Hua Wei, Evangelos E. Papalexakis, Jia Chen,
- Abstract要約: 大規模言語モデルは、その出力レベルの不確かさと実際の正しさが、同じ内部メカニズムによって駆動されるか、または異なる特徴集団によって駆動されるかという疑問を提起する。
モデル予測を正当性と信頼軸に沿って分割する2x2フレームワークを導入し,スパースオートエンコーダを用いて各次元に関連する特徴を独立に同定する。
- 参考スコア(独自算出の注目度): 10.172598963520961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can be uncertain yet correct, or confident yet wrong, raising the question of whether their output-level uncertainty and their actual correctness are driven by the same internal mechanisms or by distinct feature populations. We introduce a 2x2 framework that partitions model predictions along correctness and confidence axes, and uses sparse autoencoders to identify features associated with each dimension independently. Applying this to Llama-3.1-8B and Gemma-2-9B, we identify three feature populations that play fundamentally different functional roles. Pure uncertainty features are functionally essential: suppressing them severely degrades accuracy. Pure incorrectness features are functionally inert: despite showing statistically significant activation differences between correct and incorrect predictions, the majority produce near-zero change in accuracy when suppressed. Confounded features that encode both signals are detrimental to output quality, and targeted suppression of them yields a 1.1% accuracy improvement and a 75% entropy reduction, with effects transferring across the ARC-Challenge and RACE benchmarks. The feature categories are also informationally distinct: the activations of just 3 confounded features from a single mid-network layer predict model correctness (AUROC ~0.79), enabling selective abstention that raises accuracy from 62% to 81% at 53% coverage. The results demonstrate that uncertainty and correctness are distinct internal phenomena, with implications for interpretability and targeted inference-time intervention.
- Abstract(参考訳): 大規模言語モデルは、その出力レベルの不確かさと実際の正しさが、同じ内部メカニズムによって駆動されるか、または異なる特徴集団によって駆動されるかという疑問を提起する。
モデル予測を正当性と信頼軸に沿って分割する2x2フレームワークを導入し,スパースオートエンコーダを用いて各次元に関連する特徴を独立に同定する。
Llama-3.1-8B と Gemma-2-9B に応用し,機能的役割を根本的に異なる3つの特徴群を同定した。
純粋不確実性は機能的に必須であり、それらを抑制することは精度を著しく低下させる。
正しい予測と誤予測の間に統計的に有意なアクティベーションの差があるにもかかわらず、大多数は抑制されたときにほぼゼロに近い精度の変化をもたらす。
両信号の符号化は出力品質に有害であり、目標とする抑圧は精度が1.1%向上し、エントロピーが75%減少し、ARC-Challenge と RACE のベンチマーク間で効果が伝達される。
AUROC ~0.79 は、精度を 62% から 81% に上げ、53% のカバレッジで選択的な棄権を可能にする。
その結果、不確実性と正当性は、解釈可能性や推論時間の介入に影響を及ぼす、異なる内部現象であることが明らかとなった。
関連論文リスト
- Evolving Multi-Channel Confidence-Aware Activation Functions for Missing Data with Channel Propagation [1.3999481573773072]
ニューラルネットワークでは、アクティベーション機能はパフォーマンスに大きく影響するが、不足指標や信頼スコアは考慮していない。
本稿では,3チャネル進化活性化(3C-EA)とChannelPropを提案する。
その結果,アクティベーション検索に欠落点と信頼度を組み込むことで,欠落点下での分類性能が向上することが示唆された。
論文 参考訳(メタデータ) (2026-02-14T19:52:10Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - DUAL: Dynamic Uncertainty-Aware Learning [19.100858792977807]
単一モーダルシナリオとマルチモーダルシナリオの両方において,機能不確実性を効果的に処理する統合フレームワークであるDynamicUncertainty-Aware Learning (DUAL)を提案する。
DUALは3つの重要なイノベーションを紹介している。ダイナミックな特徴の不確実性モデリング、適応的な分散-認識変調、不確実性-認識の相互関係である。
論文 参考訳(メタデータ) (2025-05-21T18:50:15Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Removing Spurious Features can Hurt Accuracy and Affect Groups
Disproportionately [83.68135652247496]
自然な修正は、モデルからスプリアスな特徴を取り除くことである。
誘導バイアスによる突発的特徴の除去は精度を低下させる可能性が示唆された。
また,ロバストな自己学習によって,全体的な正確性に影響を与えずにスプリアスな特徴を除去できることを示した。
論文 参考訳(メタデータ) (2020-12-07T23:08:59Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。