論文の概要: Can Cross-Layer Transcoders Replace Vision Transformer Activations? An Interpretable Perspective on Vision
- arxiv url: http://arxiv.org/abs/2604.13304v1
- Date: Tue, 14 Apr 2026 21:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.302234
- Title: Can Cross-Layer Transcoders Replace Vision Transformer Activations? An Interpretable Perspective on Vision
- Title(参考訳): クロスレイヤトランスコーダは視覚変換器の活性化を置き換えることができるか? : 視覚の解釈可能な視点
- Authors: Gerasimos Chatzoudis, Konstantinos D. Polyzos, Zhuowei Li, Difei Gu, Gemma E. Moran, Hao Wang, Dimitris N. Metaxas,
- Abstract要約: 視覚変換器(ViT)の信頼性,疎度,深度を考慮したプロキシモデルとして,CLT(Cross-Layer Transcoders)を導入する。
CLTはエンコーダ・デコーダ方式を用いて、前の層の学習されたスパース埋め込みからMLP後の各アクティベーションを再構築する。
CLTは,CLIPゼロショット分類精度を保ち,さらに改善しながら,MLP後の活性化によって高い再現性が得られることを示す。
- 参考スコア(独自算出の注目度): 29.67524916084184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the internal activations of Vision Transformers (ViTs) is critical for building interpretable and trustworthy models. While Sparse Autoencoders (SAEs) have been used to extract human-interpretable features, they operate on individual layers and fail to capture the cross-layer computational structure of Transformers, as well as the relative significance of each layer in forming the last-layer representation. Alternatively, we introduce the adoption of Cross-Layer Transcoders (CLTs) as reliable, sparse, and depth-aware proxy models for MLP blocks in ViTs. CLTs use an encoder-decoder scheme to reconstruct each post-MLP activation from learned sparse embeddings of preceding layers, yielding a linear decomposition that transforms the final representation of ViTs from an opaque embedding into an additive, layer-resolved construction that enables faithful attribution and process-level interpretability. We train CLTs on CLIP ViT-B/32 and ViT-B/16 across CIFAR-100, COCO, and ImageNet-100. We show that CLTs achieve high reconstruction fidelity with post-MLP activations while preserving and even improving, in some cases, CLIP zero-shot classification accuracy. In terms of interpretability, we show that the cross-layer contribution scores provide faithful attribution, revealing that the final representation is concentrated in a smaller set of dominant layer-wise terms whose removal degrades performance and whose retention largely preserves it. These results showcase the significance of adopting CLTs as an alternative interpretable proxy of ViTs in the vision domain.
- Abstract(参考訳): 視覚変換器(ViT)の内部アクティベーションを理解することは、解釈可能で信頼性の高いモデルを構築する上で重要である。
スパースオートエンコーダ(SAE)は人間の解釈可能な特徴を抽出するために使われてきたが、個々の層上で動作し、トランスフォーマーの層間計算構造を捉えることができず、各層が最終層表現を形成することの相対的意義も示さなかった。
あるいは、ViTにおけるMLPブロックに対する信頼性、疎度、深度を考慮したプロキシモデルとして、CLT(Cross-Layer Transcoders)を採用することを提案する。
CLTはエンコーダ・デコーダ方式を用いて、前層の学習されたスパース埋め込みから各MLP後の活性化を再構築し、ViTの最終表現を不透明な埋め込みから、忠実な帰属とプロセスレベルの解釈を可能にする付加的な層解決構造に変換する線形分解を生成する。
私たちはCLIP ViT-B/32 と ViT-B/16 の CLT を CIFAR-100,COCO,ImageNet-100 でトレーニングする。
CLTは,CLIPゼロショット分類精度を保ち,さらに改善しながら,MLP後の活性化によって高い再現性が得られることを示す。
解釈可能性の面では、層間寄与スコアが忠実な帰属を与えることを示し、最終表現は、除去が性能を低下させ、保持がほぼ維持する支配的な階層的な用語の小さな集合に集中していることを明らかにする。
これらの結果から,視覚領域におけるVTの代替的解釈可能なプロキシとしてCLTを採用することの重要性が示された。
関連論文リスト
- ViKANformer: Embedding Kolmogorov Arnold Networks in Vision Transformers for Pattern-Based Learning [0.0]
視覚変換器(ViT)はパッチ埋め込みに自己注意を適用して画像分類を行う。
本稿では,サブレイヤをKAN拡張に置き換えるViKANformerを提案する。
論文 参考訳(メタデータ) (2025-03-03T03:10:26Z) - BreakNet: Discontinuity-Resilient Multi-Scale Transformer Segmentation of Retinal Layers [0.8953337264557399]
BreakNetは、シャドーアーティファクトによる境界の不連続に対処するために設計されたトランスフォーマーベースのセグメンテーションモデルである。
以上の結果から,BreakNetは網膜の定量化と解析を大幅に改善する可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-26T19:59:20Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - White-Box Transformers via Sparse Rate Reduction [25.51855431031564]
数学的に完全に解釈可能な,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験の結果、これらのネットワークは実際に設計した目的を最適化することを学習していることがわかった。
論文 参考訳(メタデータ) (2023-06-01T20:28:44Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。