論文の概要: Sparse but not Simpler: A Multi-Level Interpretability Analysis of Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.15919v1
- Date: Mon, 16 Mar 2026 21:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.990744
- Title: Sparse but not Simpler: A Multi-Level Interpretability Analysis of Vision Transformers
- Title(参考訳): スパースだが単純ではない:視覚変換器の多レベル解釈可能性解析
- Authors: Siyu Zhang,
- Abstract要約: We evaluate the relationship between weight sparsity and interpretability in Vision Transformers using DeiT-III B/16 models pruned with Wanda。
その結果, 構造的効果は明らかだが, 解釈可能性の向上は限られていることがわかった。
これらの結果は、構造的疎結合だけでは、より解釈可能な視覚モデルが確実に得られないことを示唆している。
- 参考スコア(独自算出の注目度): 5.6842776317118835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse neural networks are often hypothesized to be more interpretable than dense models, motivated by findings that weight sparsity can produce compact circuits in language models. However, it remains unclear whether structural sparsity itself leads to improved semantic interpretability. In this work, we systematically evaluate the relationship between weight sparsity and interpretability in Vision Transformers using DeiT-III B/16 models pruned with Wanda. To assess interpretability comprehensively, we introduce \textbf{IMPACT}, a multi-level framework that evaluates interpretability across four complementary levels: neurons, layer representations, task circuits, and model-level attribution. Layer representations are analyzed using BatchTopK sparse autoencoders, circuits are extracted via learnable node masking, and explanations are evaluated with transformer attribution using insertion and deletion metrics. Our results reveal a clear structural effect but limited interpretability gains. Sparse models produce circuits with approximately $2.5\times$ fewer edges than dense models, yet the fraction of active nodes remains similar or higher, indicating that pruning redistributes computation rather than isolating simpler functional modules. Consistent with this observation, sparse models show no systematic improvements in neuron-level selectivity, SAE feature interpretability, or attribution faithfulness. These findings suggest that structural sparsity alone does not reliably yield more interpretable vision models, highlighting the importance of evaluation frameworks that assess interpretability beyond circuit compactness.
- Abstract(参考訳): スパースニューラルネットワークは、重みが言語モデルでコンパクトな回路を生成できるという発見から、密度の高いモデルよりも解釈可能であると仮定されることが多い。
しかし、構造的疎結合自体が意味論的解釈性の向上に繋がるかどうかは不明である。
本研究では,DiT-III B/16モデルを用いた視覚変換器の重量空間と解釈可能性の関係を系統的に評価する。
解釈可能性を総合的に評価するために,ニューロン,層表現,タスク回路,モデルレベルの属性の4つの相補的なレベルにまたがる解釈可能性を評価する多段階のフレームワークである \textbf{IMPACT} を導入する。
BatchTopKスパースオートエンコーダを用いて層表現を解析し、学習可能なノードマスキングにより回路を抽出し、挿入と削除のメトリクスを用いてトランスフォーマー属性を用いて説明を評価する。
その結果, 構造的効果は明らかだが, 解釈可能性の向上は限られていることがわかった。
スパースモデルは、密度の高いモデルよりも2.5\times$少ないエッジを持つ回路を生成するが、アクティブノードの比率は類似またはそれ以上であり、単純な機能モジュールを分離するのではなく、再試行の計算を行うことを示している。
この観察と一致して、スパースモデルでは、ニューロンレベルの選択性、SAEの特徴解釈性、帰属忠実性に体系的な改善は示さない。
これらの結果から,回路のコンパクト性を超えた解釈可能性を評価する評価フレームワークの重要性が指摘され,構造的疎結合だけでは,より解釈可能な視覚モデルが確実に得られないことが示唆された。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文 参考訳(メタデータ) (2024-10-21T19:12:33Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Interpretable time series neural representation for classification
purposes [3.1201323892302444]
提案したモデルは、一貫した、離散的で、解釈可能で、可視化可能な表現を生成する。
実験の結果,提案したモデルでは,複数のデータセットに対する他の解釈可能なアプローチよりも平均的に優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-25T15:06:57Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。