論文の概要: Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes
- arxiv url: http://arxiv.org/abs/2605.05715v1
- Date: Thu, 07 May 2026 05:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.549977
- Title: Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes
- Title(参考訳): 固定後流リニアステアリングによる誤り訂正はできない: 医療用LDM故障例からの証拠
- Authors: Ming Liu,
- Abstract要約: 隠れ状態における線形デオード可能な故障信号が、それらの故障を修正するために活用できるかどうかを検討する。
固定されたリニアステアリングファミリーが修正に利用できない場合でも、デオード可能な故障構造がポストジェネレーションの信頼性評価をサポートすることがわかった。
- 参考スコア(独自算出の注目度): 4.738949927143789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can linearly decodable failure signals in LLM hidden states be leveraged to correct those failures? We investigate this classification-correction gap via Overthinking (OT)--a stable behavioral regime (Jaccard >= 0.81, 94% inter-annotator agreement) in medical QA where models answer correctly under resampling yet fail in extended chain-of-thought. OT is linearly decodable at 71.6% balanced accuracy (p < 10^{-16}). Yet five families of fixed linear steering (29 configurations, n=1,273) all yield Delta ~= 0, with identical null results cross-architecture (Qwen2.5-7B) and cross-domain (MMLU-STEM). Three convergent lines of evidence suggest representational entanglement: the OT direction has 85-88% overlap with task-critical computation (specificity ratio <= 0.152); non-targeted shared-direction steering damages accuracy (-12.1pp); and LEACE concept erasure damages accuracy (-3.6pp, p=0.01), while 10 random erasures produce Delta=+0.3pp. The per-instance probe-steering correlation is r=-0.002 (p=0.97). Positively, the same probe enables selective abstention (held-out AUROC=0.610, exceeding all five uncertainty baselines, p=0.009): decodable failure structure supports post-generation reliability estimation even when the fixed linear steering family cannot exploit it for correction.
- Abstract(参考訳): LLM隠れ状態の線形デオード可能な障害信号は、それらの障害を修正するために利用できますか?
医用QAにおいて, モデルが再サンプリング時に正しく応答するが, チェーン・オブ・シントの拡張で失敗し, 安定した行動体制(Jaccard >= 0.81, 94%のアノテータ間合意)であるOverthinking (OT)による分類・補正ギャップについて検討した。
OTは71.6%の精度(p < 10^{-16})で線形に分解可能である。
しかし、固定線形ステアリング(29の配置、n=1,273)の5つの族は、全て Delta ~= 0 となり、同じ null 結果のクロスアーキテクチャ(Qwen2.5-7B)とクロスドメイン(MMLU-STEM)が成り立つ。
OT方向はタスククリティカルな計算と85-88%のオーバーラップ(比例比<=0.152)、非目標の共有方向ステアリングによる損傷の精度(-12.1pp)、LEACEの概念の消去による損傷の精度(-3.6pp, p=0.01)、ランダム消去10はDelta=+0.3ppである。
インスタンス当たりのプローブ-ステアリング相関は r=-0.002 (p=0.97) である。
肯定的には、同じプローブが選択的棄権を可能にする(AUROC=0.610は5つの不確実性ベースラインをすべて超え、p=0.009)。
関連論文リスト
- Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals [0.3384279376065155]
大きな言語モデルアンサンブルは、パフォーマンス境界までの推論精度を改善する。
DASE(Deliberative Adaptive Stopping Ensemble)は、真のコンセンサスを早期にコミットし、断片化された証拠にグローバル周波数のフォールバックを適用するアンサンブルである。
論文 参考訳(メタデータ) (2026-05-05T19:24:10Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - The Rotation Gap Is Not An Error: Ternary Structure in IBM Quantum Hardware [0.0]
量子エラー補正は、すべてのシンドロームアクティベーションが修正を必要とするエラーを表すと仮定する。
756 QEC が IBM Eagle r3 プロセッサを3つに分けて実行していることから,この仮定が間違っているという証拠を提示する。
ハードウェアは、サブ・ポアソン症候群の統計を示し、一部の症候群はランダムノイズではなく、構造化された協調的な遷移であることを示している。
論文 参考訳(メタデータ) (2026-04-13T18:54:39Z) - Interpretability without actionability: mechanistic methods cannot correct language model errors despite near-perfect internal representations [1.6676380665893165]
言語モデルは、その出力性能をはるかに上回る内部表現におけるタスク関連知識を符号化する。
現在の機械的解釈可能性法は、内部知識を確実に修正された出力に変換することはできない。
論文 参考訳(メタデータ) (2026-03-18T23:31:05Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning [46.232038247686745]
フェデレートラーニング(FL)は、歯科診断AIにおけるプライバシー制約、不均一なデータ品質、一貫性のないラベル付けを緩和する。
複数のデータ破損シナリオを対象としたパノラマX線撮影において,FLと集中学習(CL)と局所学習(LL)を比較した。
論文 参考訳(メタデータ) (2025-09-08T11:07:47Z) - Localization Uncertainty Estimation for Anchor-Free Object Detection [48.931731695431374]
アンカーベース物体検出のための既存の不確実性推定手法にはいくつかの制限がある。
アンカーフリー物体検出のためのUADと呼ばれる新しい位置推定不確実性推定手法を提案する。
本手法は,ボックスオフセットの4方向の不確かさを均一に捉え,どの方向が不確実であるかを判断する。
論文 参考訳(メタデータ) (2020-06-28T13:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。