論文の概要: Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals
- arxiv url: http://arxiv.org/abs/2605.26045v1
- Date: Mon, 25 May 2026 17:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.537299
- Title: Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals
- Title(参考訳): 言語モデル内部の信頼性解釈のための活性化オラクルの信頼性と校正
- Authors: Federico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech,
- Abstract要約: 活性化オラクルの信頼性を推定するための6つの異なる手法について検討した。
ブートストラップモード周波数は、テスト対象者の中で最良の校正法である。
ログプロブベースラインは、低コストで高速トリアージ信号として機能することができる。
- 参考スコア(独自算出の注目度): 2.4305775926851334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation oracles aim to make the activations of other models legible to humans and yield promising results compared to white-box interpretability techniques. However, uncertainty quantification (UQ) for the natural-language outputs of such activation oracles is so far understudied. Here, we investigate 6 different methods for estimating the confidence of activation oracles and evaluate how well-calibrated their confidence scores are. Our experiments on 6,000 samples per oracle (varying verbalizer and context prompts) reveal that bootstrap mode frequency is the best-calibrated method among those tested (ECE 5.7% vs. 25.5% for the answer-word log-probability on Qwen3-8B; 10.3% vs. 13.1% on Qwen3.6-27B), and that the log-prob baseline can serve as a fast triage signal at a fraction of the cost. Code and the patched trainer are available at https://github.com/federicotorrielli/probabilistic_activation_oracles.
- Abstract(参考訳): アクティベーション・オラクルは、他のモデルのアクティベーションを人間に正当化し、ホワイトボックスの解釈可能性技術と比較して有望な結果をもたらすことを目的としている。
しかしながら、このような活性化オラクルの自然言語出力に対する不確実量化(UQ)は、これまで検討されてきた。
そこで本研究では,アクティベーション・オーラクルの信頼度を推定する6つの方法を検討した。
Qwen3-8Bの回答語対数確率はECE 5.7%対25.5%、Qwen3.6-27Bの回答語対数対13.1%、対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数である。
コードとパッチ付きトレーナーはhttps://github.com/federicotorrielli/probabilistic_activation_oraclesで入手できる。
関連論文リスト
- From Correlation to Cause: A Five-Stage Methodology for Feature Analysis in Transformer Language Models [0.0]
変換言語モデルにおける因果的特徴分析のための5段階の手法を提案する。
Indirect Object Identification (IOI) タスクを実行するGPT-2のエンド・ツー・エンドを実証する。
論文 参考訳(メタデータ) (2026-05-21T13:25:16Z) - What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models [0.0]
シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。
15モデルオープンウェイトコーパスの評価を行い,5つの分類と推論ベンチマークによる10のインストラクトモデルに着目した信頼性解析を行った。
まず、評価設計は結論を根本的に変えることができる。
第2に、信頼信号は脆弱である。MMLU-Proでは、各プライマリモデルは、その精度と同一行上のトークン確率信頼の両方よりもかなり高い信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
論文 参考訳(メタデータ) (2026-05-03T20:05:08Z) - Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models? [0.0]
CoT(Chain-of- Thought)推論は、安全クリティカルなデプロイメントにおける大規模言語モデルの透明性メカニズムとして提案されている。
本研究では,9つの建築家族を対象としたオープンウェイト推論モデルを498の質問に対して検討した。
41,832回の推論では、全体の忠実度は39.7% (Seed-1.6-Flash) から89.9% (DeepSeek-V3.2- Speciale) まで変化している。
論文 参考訳(メタデータ) (2026-03-23T21:21:37Z) - Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation [0.0]
連鎖忠実性に関する最近の研究は、単一集合数について報告している。
本論文は、忠実性はモデルの客観的かつ測定可能な性質ではないことを示す。
論文 参考訳(メタデータ) (2026-03-20T17:48:43Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。