論文の概要: Entropy Reveals Block Importance in Masked Self-Supervised Vision Transformers
- arxiv url: http://arxiv.org/abs/2602.03918v1
- Date: Tue, 03 Feb 2026 18:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.227039
- Title: Entropy Reveals Block Importance in Masked Self-Supervised Vision Transformers
- Title(参考訳): 自己監督型視覚変換器におけるブロックの重要性をエントロピーが明らかに
- Authors: Peihao Xiang, Kaida Wu, Ou Bai,
- Abstract要約: 自己監督型視覚変換器におけるブロックの重要性を,データにアクセスせずに正確に推定できることを示す。
その結果,マスク付き自己監督型視覚変換器のブロックレベル冗長性は顕著であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked self-supervised vision transformers have become a dominant pretraining paradigm, yet their substantial model size poses significant challenges for resource-constrained deployment and efficient transfer learning. A fundamental question remains: are all transformer blocks equally important for downstream performance? In this paper, we show that block importance in masked self-supervised vision transformers can be accurately estimated without access to any data. Our key finding is that the information entropy of pretrained block weights strongly correlates with oracle sensitivity obtained via iterative block removal and finetuning. This observation enables Gardener, a data-free, one-shot, block-level pruning principle that identifies redundant blocks through simple information-theoretic measurements. We evaluate Gardener on VideoMAE-B across multiple pruning ratios and downstream video recognition benchmarks. Despite its negligible computational overhead, Gardener consistently matches or outperforms existing data-free pruning baselines and closely approaches sensitivity-based pruning. Remarkably, even after pruning up to 91.7\% of blocks, the pruned model retains competitive transfer performance. Our results reveal substantial block-level redundancy in masked self-supervised vision transformers and demonstrate that information-theoretic analysis offers a principled and efficient pathway for model compression and resource-efficient transfer learning.
- Abstract(参考訳): マスク付き自己監督型ビジョントランスフォーマーは、トレーニング前パラダイムとして主流となっているが、そのモデルサイズは、リソース制約されたデプロイメントと効率的な転送学習において大きな課題となっている。
すべてのトランスフォーマーブロックは、下流のパフォーマンスに等しく重要であるか?
本稿では,マスク付き自己監督型視覚変換器におけるブロックの重要性を,データにアクセスせずに正確に推定できることを示す。
我々の重要な発見は、事前訓練されたブロックウェイトの情報エントロピーが、反復的ブロック除去と微調整によって得られるオラクル感度と強く相関していることである。
この観察により、Gardnerは、単純な情報理論による測定によって冗長なブロックを識別する、データフリー、ワンショット、ブロックレベルのプルーニングの原則である。
ビデオMAE-BにおけるGardnerの評価は,複数のプルーニング比率と下流ビデオ認識ベンチマークで行った。
計算オーバーヘッドは無視できるが、Gardnerは既存のデータフリーのプルーニングベースラインに一貫してマッチし、性能を向上し、感度ベースのプルーニングに近づいた。
興味深いことに、91.7 %のブロックをプルーニングした後でも、プルーニングされたモデルは競合転送性能を維持している。
本研究は,マスク型自己監督型視覚変換器のブロックレベル冗長性を明らかにするとともに,情報理論解析がモデル圧縮と資源効率向上のための原理的かつ効率的な経路を提供することを示した。
関連論文リスト
- Sparse Model Inversion: Efficient Inversion of Vision Transformers for Data-Free Applications [99.72917069918485]
既存の高密度インバージョン手法を高速化する新しいスパースモデルインバージョン戦略を提案する。
具体的には,雑音背景の逆転や潜在的な刺激的相関を抑えつつ,意味的前景を反転させる。
論文 参考訳(メタデータ) (2025-10-31T05:14:36Z) - Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。