論文の概要: Automatic Channel Pruning for Multi-Head Attention
- arxiv url: http://arxiv.org/abs/2405.20867v1
- Date: Fri, 31 May 2024 14:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:08:24.885688
- Title: Automatic Channel Pruning for Multi-Head Attention
- Title(参考訳): マルチヘッドアテンションのためのチャンネル自動プルーニング
- Authors: Eunho Lee, Youngbae Hwang,
- Abstract要約: マルチヘッドアテンション機構を考慮した自動チャネルプルーニング手法を提案する。
ImageNet-1Kでは、FLatten Transformerにプルーニング法を適用し、いくつかのMACの精度が向上した。
- 参考スコア(独自算出の注目度): 0.11049608786515838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the strong performance of Transformers, their quadratic computation complexity presents challenges in applying them to vision tasks. Automatic pruning is one of effective methods for reducing computation complexity without heuristic approaches. However, directly applying it to multi-head attention is not straightforward due to channel misalignment. In this paper, we propose an automatic channel pruning method to take into account the multi-head attention mechanism. First, we incorporate channel similarity-based weights into the pruning indicator to preserve more informative channels in each head. Then, we adjust pruning indicator to enforce removal of channels in equal proportions across all heads, preventing the channel misalignment. We also add a reweight module to compensate for information loss resulting from channel removal, and an effective initialization step for pruning indicator based on difference of attention between original structure and each channel. Our proposed method can be used to not only original attention, but also linear attention, which is more efficient as linear complexity with respect to the number of tokens. On ImageNet-1K, applying our pruning method to the FLattenTransformer, which includes both attention mechanisms, shows outperformed accuracy for several MACs compared with previous state-of-the-art efficient models and pruned methods. Code will be available soon.
- Abstract(参考訳): トランスフォーマーの性能は高いが、その二次計算の複雑さはビジョンタスクに適用する際の課題を示している。
自動プルーニングは、ヒューリスティックなアプローチを使わずに計算複雑性を低減する効果的な方法の1つである。
しかし、チャネルの誤認識のため、直接マルチヘッドに当てはめることは容易ではない。
本稿では,マルチヘッドアテンション機構を考慮した自動チャネルプルーニング手法を提案する。
まず、チャネル類似度に基づく重み付けをプルーニングインジケータに組み込んで、より情報的なチャネルを各頭部に保持する。
そして,全頭部に均等な比例でチャネルの除去を強制するプルーニングインジケータを調整し,チャネルの誤調整を防止する。
また、チャネル除去による情報損失を補うためのリウェイトモジュールや、元の構造とチャネル間の注意の差に基づいてインジケータをプルーニングするための効果的な初期化ステップも追加する。
提案手法は,本来の注意だけでなく,トークン数に対する線形複雑性としてより効率的である線形注意にも利用できる。
ImageNet-1Kでは、両方の注意機構を含むFLatten Transformerにプルーニング法を適用し、従来の最先端のモデルやプルーニング法と比較して、MACの精度に優れていた。
コードはまもなく利用可能になる。
関連論文リスト
- Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Revisiting Random Channel Pruning for Neural Network Compression [159.99002793644163]
チャネル(または3Dフィルタ)プルーニングは、ニューラルネットワークの推論を加速する有効な方法である。
本稿では,ランダムな探索により,プルーンドモデルのチャネル構成を決定することを試みる。
この単純な戦略は、他のチャネルプルーニング手法と比較して非常にうまく機能することを示す。
論文 参考訳(メタデータ) (2022-05-11T17:59:04Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Visual Transformer Pruning [44.43429237788078]
我々は,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマープルーニング手法を提案する。
視覚的な変圧器のpruningのためのパイプラインは次の通りです:1)スパーシティの正規化を用いる訓練;2)pruningチャネル;3)微調整。
提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。
論文 参考訳(メタデータ) (2021-04-17T09:49:24Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - AutoPruning for Deep Neural Network with Dynamic Channel Masking [28.018077874687343]
深層ニューラルネットワークのための学習に基づくオートプルーニングアルゴリズムを提案する。
まず、各層に対する重みと最良チャネルを目的とする2つの目的の問題を定式化する。
次に、最適なチャネル数と重みを同時に導出するために、別の最適化手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T20:12:46Z) - Operation-Aware Soft Channel Pruning using Differentiable Masks [51.04085547997066]
本稿では,データ駆動型アルゴリズムを提案する。このアルゴリズムは,操作特性を利用して,ディープニューラルネットワークを異なる方法で圧縮する。
我々は大規模な実験を行い、出力ネットワークの精度で優れた性能を達成する。
論文 参考訳(メタデータ) (2020-07-08T07:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。