論文の概要: Causality $\neq$ Decodability, and Vice Versa: Lessons from Interpreting Counting ViTs
- arxiv url: http://arxiv.org/abs/2510.09794v1
- Date: Fri, 10 Oct 2025 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.627493
- Title: Causality $\neq$ Decodability, and Vice Versa: Lessons from Interpreting Counting ViTs
- Title(参考訳): Causality $\neq$ deodability, and Vice Versa: カウントVTの解釈から学んだこと
- Authors: Lianghuan Huang, Yingshan Chang,
- Abstract要約: 物体計数のために微調整された視覚変換器(ViT)の関係について検討する。
アクティベーションパッチを用いて,空間トークンとCLSトークンの因果的役割を検証した。
我々は、異なる深さでカウント情報の復調性を評価するために線形プローブを訓練する。
- 参考スコア(独自算出の注目度): 6.622603488436762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability seeks to uncover how internal components of neural networks give rise to predictions. A persistent challenge, however, is disentangling two often conflated notions: decodability--the recoverability of information from hidden states--and causality--the extent to which those states functionally influence outputs. In this work, we investigate their relationship in vision transformers (ViTs) fine-tuned for object counting. Using activation patching, we test the causal role of spatial and CLS tokens by transplanting activations across clean-corrupted image pairs. In parallel, we train linear probes to assess the decodability of count information at different depths. Our results reveal systematic mismatches: middle-layer object tokens exert strong causal influence despite being weakly decodable, whereas final-layer object tokens support accurate decoding yet are functionally inert. Similarly, the CLS token becomes decodable in mid-layers but only acquires causal power in the final layers. These findings highlight that decodability and causality reflect complementary dimensions of representation--what information is present versus what is used--and that their divergence can expose hidden computational circuits.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic interpretability)は、ニューラルネットワークの内部コンポーネントがどのように予測を引き起こすかを明らかにすることを目的としている。
しかし、永続的な課題は、しばしば混ざり合った2つの概念、つまり、隠された状態からの情報の回復可能性、および因果性、すなわちこれらの状態が出力に機能的に影響を及ぼす程度を解消することである。
本研究では,物体計数のために微調整された視覚変換器(ViT)におけるそれらの関係について検討する。
アクティベーションパッチの適用により,クリーンな画像ペア間でのアクティベーションを移植することにより,空間トークンとCLSトークンの因果的役割を検証した。
並行して、異なる深さでカウント情報の復調性を評価するために線形プローブを訓練する。
中間層オブジェクトトークンは,デオードが弱いにもかかわらず強い因果影響を示す一方,最終層オブジェクトトークンは正確なデコードをサポートし,機能的に不活性である。
同様に、CRSトークンは中間層では復調可能であるが、最終層では因果力しか取得できない。
これらの知見は、陰極性と因果性が表現の相補的な次元を反映していること、すなわち、どのような情報が使われているか、そしてそれらの分岐が隠れた計算回路を隠蔽できることを浮き彫りにしている。
関連論文リスト
- Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis [3.1526281887627587]
モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-03T04:13:06Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - Mechanistic Interpretability in the Presence of Architectural Obfuscation [0.0]
アーキテクチャ難読化(Architectural obfuscation)は、プライバシ保存型大言語モデル(LLM)推論における重み付き暗号の軽量代用である。
我々は,代表的難読化マップを用いて,スクラッチから訓練したGPT-2小モデルを分析する。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
論文 参考訳(メタデータ) (2025-06-22T14:39:16Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Diagnosing Catastrophe: Large parts of accuracy loss in continual
learning can be accounted for by readout misalignment [0.0]
データ分散の変更に関するニューラルネットワークのトレーニングは、古いタスクのパフォーマンスを急速に低下させる。
本稿では,この性能を損なう表現的変化について検討し,この現象を考慮に入れた3つの異なる過程を同定する。
論文 参考訳(メタデータ) (2023-10-09T11:57:46Z) - OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution
Shifts of Individual Nuisances in Natural Images [59.51657161097337]
OOD-CV-v2は、ポーズ、形状、テクスチャ、コンテキスト、気象条件の10のオブジェクトカテゴリのアウト・オブ・ディストリビューションの例を含むベンチマークデータセットである。
この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
論文 参考訳(メタデータ) (2023-04-17T20:39:25Z) - What can we learn about a generated image corrupting its latent
representation? [57.1841740328509]
GANのボトルネックにおける潜在表現に基づいて画像品質を予測できるという仮説を考察する。
遅延表現を雑音で破壊し、複数の出力を生成することでこれを実現できる。
論文 参考訳(メタデータ) (2022-10-12T14:40:32Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。