論文の概要: Interpretability without actionability: mechanistic methods cannot correct language model errors despite near-perfect internal representations
- arxiv url: http://arxiv.org/abs/2603.18353v1
- Date: Wed, 18 Mar 2026 23:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.881627
- Title: Interpretability without actionability: mechanistic methods cannot correct language model errors despite near-perfect internal representations
- Title(参考訳): 動作性のない解釈可能性:内部表現がほぼ完全であるにもかかわらず、機械的手法では言語モデルの誤りを訂正できない
- Authors: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, John Morgan, Rajaie Batniji,
- Abstract要約: 言語モデルは、その出力性能をはるかに上回る内部表現におけるタスク関連知識を符号化する。
現在の機械的解釈可能性法は、内部知識を確実に修正された出力に変換することはできない。
- 参考スコア(独自算出の注目度): 1.6676380665893165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models encode task-relevant knowledge in internal representations that far exceeds their output performance, but whether mechanistic interpretability methods can bridge this knowledge-action gap has not been systematically tested. We compared four mechanistic interpretability methods -- concept bottleneck steering (Steerling-8B), sparse autoencoder feature steering, logit lens with activation patching, and linear probing with truthfulness separator vector steering (Qwen 2.5 7B Instruct) -- for correcting false-negative triage errors using 400 physician-adjudicated clinical vignettes (144 hazards, 256 benign). Linear probes discriminated hazardous from benign cases with 98.2% AUROC, yet the model's output sensitivity was only 45.1%, a 53-percentage-point knowledge-action gap. Concept bottleneck steering corrected 20% of missed hazards but disrupted 53% of correct detections, indistinguishable from random perturbation (p=0.84). SAE feature steering produced zero effect despite 3,695 significant features. TSV steering at high strength corrected 24% of missed hazards while disrupting 6% of correct detections, but left 76% of errors uncorrected. Current mechanistic interpretability methods cannot reliably translate internal knowledge into corrected outputs, with implications for AI safety frameworks that assume interpretability enables effective error correction.
- Abstract(参考訳): 言語モデルは、内部表現におけるタスク関連知識を、その出力性能をはるかに上回っているが、機械的解釈可能性法が、この知識-相互作用ギャップを橋渡しできるかどうかを体系的にテストしていない。
我々は,400種類の医師適応型臨床ヴィグネットを用いて偽陰性トリアージ誤差を補正するために,概念的ボトルネックステアリング(Steerling-8B),スパースオートエンコーダ機能ステアリング,アクティベーションパッチ付きロジトレンズ,真性セパレータベクトルステアリング(Qwen 2.5 7Bインストラクト)を用いた線形探傷(Qwen 2.5 7Bインストラクト)の4つの機構的解釈法を比較した。
線形プローブは98.2%のAUROCを持つ良性症例から危険を識別したが、出力感度はわずか45.1%であり、53パーセントの知識-アクションギャップがあった。
概念的ボトルネックステアリングは20%の障害を補正したが、ランダムな摂動と区別できない53%の正確な検出を妨害した(p=0.84)。
SAEは3,695個の重要な特徴にもかかわらずゼロ効果を生んだ。
TSVの操舵は高い強度で24%の障害を補正し、6%の正確な検出を妨害したが、76%のエラーは修正されなかった。
現在の機械的解釈可能性法は、内部知識を確実に修正された出力に変換することはできない。
関連論文リスト
- Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments [0.0]
本稿では,新しいGym2DデータセットとUCF101データセットを用いて,厳しい領域シフトの体系的研究を行う。
我々の研究は、標準的なデプロイメント仮定に挑戦し、セマンティックスケルトン認識と幾何学的スケルトン認識の両方のデプロイの安全性を原則として分析する。
論文 参考訳(メタデータ) (2026-03-16T17:37:17Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - Probabilistic Soundness Guarantees in LLM Reasoning Chains [37.440902632372904]
ARES(Autoregressive Reasoning Entailment Stability)は、事前に検証された前提のみに基づいて、各推論ステップを評価する確率的フレームワークである。
ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-17T09:40:56Z) - Self-Correction Bench: Uncovering and Addressing the Self-Correction Blind Spot in Large Language Models [0.7910367295422812]
大規模言語モデル(LLM)は誤りを犯し、非生産的推論経路を探索することができる。
自己補正機能は、安全クリティカルなアプリケーションにLLMをデプロイするために不可欠である。
LLMは、外部ソースから同一のエラーを修正しながら、自身の出力でエラーを修正することはできない。
論文 参考訳(メタデータ) (2025-07-03T16:41:30Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Improving Uncertainty-Error Correspondence in Deep Bayesian Medical Image Segmentation [3.3572047447192626]
不正確な領域のみに存在する不確実性を促進するために、FlipOutモデルに精度-vs-不確実性(AvU)損失を学習する。
本手法を頭頸部CTと前立腺MRIの2つの放射線治療部位のデータセットに適用する。
論文 参考訳(メタデータ) (2024-09-05T12:31:51Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Localization Uncertainty Estimation for Anchor-Free Object Detection [48.931731695431374]
アンカーベース物体検出のための既存の不確実性推定手法にはいくつかの制限がある。
アンカーフリー物体検出のためのUADと呼ばれる新しい位置推定不確実性推定手法を提案する。
本手法は,ボックスオフセットの4方向の不確かさを均一に捉え,どの方向が不確実であるかを判断する。
論文 参考訳(メタデータ) (2020-06-28T13:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。