論文の概要: Data-independent Module-aware Pruning for Hierarchical Vision Transformers
- arxiv url: http://arxiv.org/abs/2404.13648v1
- Date: Sun, 21 Apr 2024 12:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:01:50.411184
- Title: Data-independent Module-aware Pruning for Hierarchical Vision Transformers
- Title(参考訳): 階層型視覚変換器のためのデータ非依存モジュール対応プルーニング
- Authors: Yang He, Joey Tianyi Zhou,
- Abstract要約: 階層型視覚変換器(ViT)は従来のViTよりも2つの利点がある。
まず、階層型ViTは局所的な自己注意による画像サイズに関する線形計算複雑性を実現する。
第二に、階層的なViTは階層的な特徴マップを作成し、画像パッチをより深い層にマージして、密度の高い予測を行う。
- 参考スコア(独自算出の注目度): 41.92794134275854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical vision transformers (ViTs) have two advantages over conventional ViTs. First, hierarchical ViTs achieve linear computational complexity with respect to image size by local self-attention. Second, hierarchical ViTs create hierarchical feature maps by merging image patches in deeper layers for dense prediction. However, existing pruning methods ignore the unique properties of hierarchical ViTs and use the magnitude value as the weight importance. This approach leads to two main drawbacks. First, the "local" attention weights are compared at a "global" level, which may cause some "locally" important weights to be pruned due to their relatively small magnitude "globally". The second issue with magnitude pruning is that it fails to consider the distinct weight distributions of the network, which are essential for extracting coarse to fine-grained features at various hierarchical levels. To solve the aforementioned issues, we have developed a Data-independent Module-Aware Pruning method (DIMAP) to compress hierarchical ViTs. To ensure that "local" attention weights at different hierarchical levels are compared fairly in terms of their contribution, we treat them as a module and examine their contribution by analyzing their information distortion. Furthermore, we introduce a novel weight metric that is solely based on weights and does not require input images, thereby eliminating the dependence on the patch merging process. Our method validates its usefulness and strengths on Swin Transformers of different sizes on ImageNet-1k classification. Notably, the top-5 accuracy drop is only 0.07% when we remove 52.5% FLOPs and 52.7% parameters of Swin-B. When we reduce 33.2% FLOPs and 33.2% parameters of Swin-S, we can even achieve a 0.8% higher relative top-5 accuracy than the original model. Code is available at: https://github.com/he-y/Data-independent-Module-Aware-Pruning
- Abstract(参考訳): 階層型視覚変換器(ViT)は従来のViTよりも2つの利点がある。
まず、階層型ViTは局所的な自己注意による画像サイズに関する線形計算複雑性を実現する。
第二に、階層的なViTは階層的な特徴マップを作成し、画像パッチをより深い層にマージして、密度の高い予測を行う。
しかし、既存のプルーニング法は階層型 ViT のユニークな性質を無視し、重み付けの重み付けとしてその大きさ値を用いる。
このアプローチの主な欠点は2つあります。
第一に、「局所的な」注目重量は「グローバル」レベルで比較され、これは比較的小さな大きさの「グローバル」のために「局所的に」重要な重量が刈り取られる可能性がある。
マグニチュードプルーニングの2つ目の問題は、様々な階層レベルで粗い特徴から細かな特徴を抽出するのに不可欠である、ネットワークの異なる重量分布を考慮できないことである。
この問題を解決するために,データ非依存型モジュール・アウェア・プルーニング法 (DIMAP) を開発した。
異なる階層レベルでの「局所的」注意重みが、その貢献度で同等に比較されるように、モジュールとして扱い、情報歪みを分析して貢献度を調べる。
さらに、重みのみに基づいて入力画像を必要としない新しい重み計量を導入することにより、パッチマージプロセスへの依存を解消する。
画像Net-1k分類において,異なる大きさのスイム変換器に対して,その有用性と強度を検証した。
特に、52.5%のFLOPと52.7%のパラメータをSwin-Bから取り除いた場合、トップ5の精度低下は0.07%に過ぎなかった。
33.2%のFLOPと33.2%のパラメータをSwin-Sに還元すると、元のモデルよりも0.8%高い相対的トップ5の精度が得られる。
https://github.com/he-y/Data-independent-Module-Aware-Pruning
関連論文リスト
- Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - DeepCuts: Single-Shot Interpretability based Pruning for BERT [0.0]
我々のスコアリング関数は、より関連するタスクベースのスコアをネットワークパラメータに割り当てることができることを示す。
また、プルーニングマスクを解析した結果、標準的な測定値から得られたマスクとは大きく異なることがわかった。
論文 参考訳(メタデータ) (2022-12-27T07:21:41Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Accumulated Trivial Attention Matters in Vision Transformers on Small
Datasets [25.041489334839117]
我々は、畳み込みニューラルネットワークと比較して、グローバルな注意力の計算が別の不利をもたらすことを示す。
そこで我々は,注意重みを,自明かつ非自明なものに閾値で分割し,その上で,累積トライビタルアテンション(SATA)重みを抑えることを提案する。
本手法は視覚変換器の精度を最大2.3%向上させる。
論文 参考訳(メタデータ) (2022-10-22T02:34:17Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。