論文の概要: Augmented Shortcuts for Vision Transformers
- arxiv url: http://arxiv.org/abs/2106.15941v1
- Date: Wed, 30 Jun 2021 09:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 12:35:22.952561
- Title: Augmented Shortcuts for Vision Transformers
- Title(参考訳): 視覚変換器用拡張ショートカット
- Authors: Yehui Tang, Kai Han, Chang Xu, An Xiao, Yiping Deng, Chao Xu, Yunhe
Wang
- Abstract要約: 視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 49.70151144700589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have achieved great progress on computer vision tasks
recently. The rapid development of vision transformers is mainly contributed by
their high representation ability for extracting informative features from
input images. However, the mainstream transformer models are designed with deep
architectures, and the feature diversity will be continuously reduced as the
depth increases, i.e., feature collapse. In this paper, we theoretically
analyze the feature collapse phenomenon and study the relationship between
shortcuts and feature diversity in these transformer models. Then, we present
an augmented shortcut scheme, which inserts additional paths with learnable
parameters in parallel on the original shortcuts. To save the computational
costs, we further explore an efficient approach that uses the block-circulant
projection to implement augmented shortcuts. Extensive experiments conducted on
benchmark datasets demonstrate the effectiveness of the proposed method, which
brings about 1% accuracy increase of the state-of-the-art visual transformers
without obviously increasing their parameters and FLOPs.
- Abstract(参考訳): トランスフォーマーモデルは近年,コンピュータビジョンタスクにおいて大きな進歩を遂げている。
視覚変換器の急速な開発は、入力画像から情報的特徴を抽出する高い表現能力に主に寄与している。
しかし、主流のトランスフォーマーモデルは深いアーキテクチャで設計されており、深さが増すにつれて機能の多様性が継続的に減少する。
本稿では,特徴崩壊現象を理論的に解析し,これらの変圧器モデルにおけるショートカットと特徴多様性の関係について検討する。
次に,従来のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
計算コストを節約するため、ブロック循環投影を用いて拡張ショートカットを実装する効率的なアプローチをさらに探究する。
ベンチマークデータセットで行った広範囲な実験は、提案手法の有効性を実証し、パラメータやフラップを明らかに増加させることなく、最先端の視覚トランスフォーマーの精度を約1%向上させる。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Depth Estimation with Simplified Transformer [4.565830918989131]
トランスフォーマーとその変種は、最近多くの視覚タスクにおいて最先端の結果を示している。
簡易変換器(DEST)を用いた自己教師型単眼深度推定法を提案する。
我々のモデルでは、モデルのサイズ、複雑さ、および推論遅延を大幅に削減すると同時に、最先端技術と比較して精度が向上する。
論文 参考訳(メタデータ) (2022-04-28T21:39:00Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Transformer Pruning [44.43429237788078]
我々は,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマープルーニング手法を提案する。
視覚的な変圧器のpruningのためのパイプラインは次の通りです:1)スパーシティの正規化を用いる訓練;2)pruningチャネル;3)微調整。
提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。
論文 参考訳(メタデータ) (2021-04-17T09:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。