論文の概要: Patch Slimming for Efficient Vision Transformers
- arxiv url: http://arxiv.org/abs/2106.02852v1
- Date: Sat, 5 Jun 2021 09:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:29:59.561384
- Title: Patch Slimming for Efficient Vision Transformers
- Title(参考訳): 効率的な視覚変換器のためのパッチスライミング
- Authors: Yehui Tang, Kai Han, Yunhe Wang, Chang Xu, Jianyuan Guo, Chao Xu,
Dacheng Tao
- Abstract要約: 与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
- 参考スコア(独自算出の注目度): 107.21146699082819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the efficiency problem for visual transformers by
excavating redundant calculation in given networks. The recent transformer
architecture has demonstrated its effectiveness for achieving excellent
performance on a series of computer vision tasks. However, similar to that of
convolutional neural networks, the huge computational cost of vision
transformers is still a severe issue. Considering that the attention mechanism
aggregates different patches layer-by-layer, we present a novel patch slimming
approach that discards useless patches in a top-down paradigm. We first
identify the effective patches in the last layer and then use them to guide the
patch selection process of previous layers. For each layer, the impact of a
patch on the final output feature is approximated and patches with less impact
will be removed. Experimental results on benchmark datasets demonstrate that
the proposed method can significantly reduce the computational costs of vision
transformers without affecting their performances. For example, over 45% FLOPs
of the ViT-Ti model can be reduced with only 0.2% top-1 accuracy drop on the
ImageNet dataset.
- Abstract(参考訳): 本稿では,与えられたネットワーク上での冗長計算による視覚変圧器の効率問題について検討する。
最近のトランスフォーマーアーキテクチャは、一連のコンピュータビジョンタスクで優れたパフォーマンスを達成するための効果を実証している。
しかし、畳み込みニューラルネットワークと同様、視覚変換器の膨大な計算コストは依然として深刻な問題である。
注意機構が異なるパッチ層を階層的に集約することを考えると、トップダウンパラダイムで無駄なパッチを破棄する新しいパッチスライミングアプローチを提案する。
まず、最後のレイヤで有効なパッチを特定し、それを使って前のレイヤのパッチ選択プロセスをガイドします。
各レイヤについて、最終出力機能に対するパッチの影響は近似され、影響の少ないパッチは削除される。
ベンチマークデータセットにおける実験結果は,提案手法が視覚トランスフォーマーの性能に影響を与えることなく,計算コストを大幅に削減できることを示した。
例えば、ViT-Tiモデルの45%以上のFLOPは、ImageNetデータセットの0.2%のトップ1の精度低下で削減できる。
関連論文リスト
- CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Applying Plain Transformers to Real-World Point Clouds [0.0]
この研究は、現実世界のポイントクラウド理解におけるプレーントランスフォーマーを再考する。
誘導バイアスの欠如による性能ギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師型事前訓練について検討した。
我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。
論文 参考訳(メタデータ) (2023-02-28T21:06:36Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision
Transformers [81.31885548824926]
自己注意型モデルであるTransformerは近年,コンピュータビジョン分野における主要なバックボーンになりつつある。
解釈可能性を考慮した冗長度低減フレームワーク(IA-RED$2$)を提案する。
画像タスクとビデオタスクの両方で広範囲に実験を行い、最大1.4倍のスピードアップを実現しました。
論文 参考訳(メタデータ) (2021-06-23T18:29:23Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。