Fugu-MT 論文翻訳(概要): Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

論文の概要: Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

arxiv url: http://arxiv.org/abs/2605.08200v1
Date: Tue, 05 May 2026 22:27:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.45706
Title: Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits
Title（参考訳）: 視覚・言語モデルにおける信頼性の在り方:意識・隠れ状態・因果回路の力学的研究
Authors: Logan Mann, Ajit Saravanan, Ishan Dave, Shikhar Shiromani, Saadullah Ismail, Yi Xia, Emily Huang,
Abstract要約: 広範にわたる見解では、可聴言語モデル(VLM)は、注意が鋭いときに最も信頼できるものである。注意構造、生成ダイナミクス、隠れ状態幾何を1つの正しさラベルと比較する。 3-7BのVLMでは、アテンションマップのシャープネスよりも、隠れ状態の幾何、層幅のマージン形成、スパースレイト層の回路から信頼性を確実に読み取ることができる。
参考スコア（独自算出の注目度）: 1.840562129212051
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A pervasive intuition holds that vision-language models (VLMs) are most trustworthy when their attention maps look sharp: concentrated attention on the queried region should imply a confident, calibrated answer. We test this Attention-Confidence Assumption directly. We instrument three open-weight VLM families (LLaVA-1.5, PaliGemma, Qwen2-VL; 3-7B parameters) with a unified mechanistic pipeline -- the VLM Reliability Probe (VRP) -- that compares attention structure, generation dynamics, and hidden-state geometry against a single correctness label. Three results emerge. (i) Attention structure is a near-zero predictor of correctness (R_pb(C_k,y)=0.001, 95% CI [-0.034,0.036]; R_pb(H_s,y)=-0.012, [-0.047,0.024] on a pooled n=3,090 split), even though attention remains causally necessary for feature extraction (top-30% patch masking drops accuracy by 8.2-11.3 pp, p<0.001). (ii) Reliability becomes legible later in the computation: a single hidden-state linear probe reaches AUROC>0.95 on POPE for two of three families, and self-consistency at K=10 is the strongest behavioral predictor we measure at 10x inference cost (R_pb=0.43). (iii) Causal neuron-level ablations expose a sharp architectural split with direct monitor-design implications: late-fusion LLaVA concentrates reliability in a fragile late bottleneck (-8.3 pp object-identification accuracy after top-5 probe-neuron ablation), whereas early-fusion PaliGemma and Qwen2-VL distribute it widely and absorb destruction of ~50% of their peak-layer hidden dimension with <=1 pp degradation. The takeaway is narrow but consequential: in 3-7B VLMs, reliability is read more reliably off hidden-state geometry, layer-wise margin formation, and sparse late-layer circuits than off attention-map sharpness.
Abstract（参考訳）: 広範にわたる直観では、視覚言語モデル(VLM)が最も信頼できるのは、注意図が鋭く見えるときである。私たちはこの注意信頼度を直接テストします。我々は,3つのオープンウェイトなVLMファミリ(LLaVA-1.5,PaliGemma,Qwen2-VL; 3-7Bパラメータ)に,単一正当性ラベルに対する注意構造,生成ダイナミクス,隠れ状態形状を比較する,統一的なメカニスティックパイプライン(VLM Reliability Probe (VRP))を実装した。 3つの結果が現れる。 (i)アテンション構造は、特徴抽出に用いたとしても(トップ30%のパッチマスキングが8.2-11.3 pp, p<0.001の精度を低下させる)、ほぼゼロに近い正当性予測器(R_pb(C_k,y)=0.001,95% CI [-0.034,0.036]; R_pb(H_s,y)=-0.012, [-0.047,0.024])である。 1つの隠れ状態線形プローブが3つのファミリーのうち2つのPOPE上でAUROC>0.95に到達し、K=10での自己整合性は10倍の推論コスト(R_pb=0.43)で測定する最も強力な行動予測器である。遅延融合LLaVAは、脆弱な遅延ボトルネック(トップ5のプローブ-ニューロンアブレーション後8.3ppのオブジェクト識別精度)に集中する一方、早期融合PaliGemmaとQwen2-VLは、ピーク層隠蔽次元の約50%を<=1ppの劣化で吸収する。 3-7BのVLMでは、信頼性は注意図のシャープネスよりも隠れ状態の幾何、層幅のマージン形成、薄層回路より確実に読み取られる。

関連論文リスト

Architectural Observability Collapse in Transformers [0.0]
トレーニングは、出力信頼が露呈しない内部的な意思決定品質のシグナルを保持します。信頼制御は、平均60.3%の生プローブ信号を6つのファミリーの14モデルで吸収する。 Llama 3.1 8Bは、同じ32層、32頭、4096面の形状で崩壊する。
論文参考訳（メタデータ） (2026-04-27T02:39:02Z)
Uncertainty-Aware Mapping from 3D Keypoints to Anatomical Landmarks for Markerless Biomechanics [39.155383773210836]
マーカーレスバイオメカニクスは、ますますビデオから抽出された3D骨格キーポイントに依存している。本研究では,3Dポーズキーポイントを3D解剖学的ランドマークにマッピングするための信頼度尺度として,予測の不確実性について検討する。
論文参考訳（メタデータ） (2026-03-27T09:42:23Z)
Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments [0.0]
本稿では,新しいGym2DデータセットとUCF101データセットを用いて,厳しい領域シフトの体系的研究を行う。我々の研究は、標準的なデプロイメント仮定に挑戦し、セマンティックスケルトン認識と幾何学的スケルトン認識の両方のデプロイの安全性を原則として分析する。
論文参考訳（メタデータ） (2026-03-16T17:37:17Z)
Linear Predictability of Attention Heads in Large Language Models [0.5833117322405447]
事前学習したトランスフォーマーは,頭部間線形構造が広範に存在することを示す。我々は、参照ヘッドKV状態のみをキャッシュし、残りのヘッドをオンザフライで再構築することでこれを活用します。
論文参考訳（メタデータ） (2026-03-04T09:04:03Z)
BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。両課題に対処する統合フレームワークであるBadCLIP++を提案する。ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文参考訳（メタデータ） (2026-02-19T08:31:16Z)
Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文参考訳（メタデータ） (2026-02-10T21:08:53Z)
Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference [54.467557491325046]
本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。 PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
論文参考訳（メタデータ） (2026-02-09T07:05:23Z)
Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric [49.393713730706445]
汚損の堅牢性を評価するための識別サンプルを強調したベンチマークであるBench-Cを紹介する。本稿では,ロバストネスアライメントスコア(RAS)を提案する。
論文参考訳（メタデータ） (2025-11-24T12:07:56Z)
Towards Adversarial Robustness and Uncertainty Quantification in DINOv2-based Few-Shot Anomaly Detection [6.288045889067255]
DINOv2のような基礎モデルは、数発の異常検出において強い性能を示している。本研究は, 敵攻撃と不確実性評価に関する最初の体系的研究である。生の異常スコアは校正が不十分で、信頼性と正しさのギャップが明らかになり、安全クリティカルな使用が制限されることがわかりました。
論文参考訳（メタデータ） (2025-10-15T15:06:45Z)
vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。 vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文参考訳（メタデータ） (2025-10-07T08:46:08Z)
Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文参考訳（メタデータ） (2023-01-17T01:46:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。