論文の概要: Exploring and Improving Mobile Level Vision Transformers
- arxiv url: http://arxiv.org/abs/2108.13015v1
- Date: Mon, 30 Aug 2021 06:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:37:34.536499
- Title: Exploring and Improving Mobile Level Vision Transformers
- Title(参考訳): モバイルレベルの視覚トランスフォーマーの探索と改善
- Authors: Pengguang Chen, Yixin Chen, Shu Liu, Mingchang Yang, Jiaya Jia
- Abstract要約: 本稿では,移動体レベルでの視覚変換器の構造について検討し,劇的な性能低下を見出した。
本稿では,新しい不規則なパッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 81.7741384218121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the vision transformer structure in the mobile level in this paper,
and find a dramatic performance drop. We analyze the reason behind this
phenomenon, and propose a novel irregular patch embedding module and adaptive
patch fusion module to improve the performance. We conjecture that the vision
transformer blocks (which consist of multi-head attention and feed-forward
network) are more suitable to handle high-level information than low-level
features. The irregular patch embedding module extracts patches that contain
rich high-level information with different receptive fields. The transformer
blocks can obtain the most useful information from these irregular patches.
Then the processed patches pass the adaptive patch merging module to get the
final features for the classifier. With our proposed improvements, the
traditional uniform vision transformer structure can achieve state-of-the-art
results in mobile level. We improve the DeiT baseline by more than 9\% under
the mobile-level settings and surpass other transformer architectures like Swin
and CoaT by a large margin.
- Abstract(参考訳): 本稿では,モバイルレベルでの視覚トランスフォーマー構造について検討し,劇的な性能低下を見出した。
本稿では,この現象の背景にある理由を分析し,新しい不規則パッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。
視覚変換器ブロック(マルチヘッドアテンションとフィードフォワードネットワーク)は低レベル特徴よりも高レベル情報を扱うのに適していると推測する。
不規則なパッチ埋め込みモジュールは、異なる受容フィールドを持つリッチなハイレベル情報を含むパッチを抽出する。
トランスブロックは、これらの不規則なパッチから最も有用な情報を得ることができる。
その後、処理されたパッチはadaptive patch mergeモジュールをパスし、分類器の最終機能を取得する。
提案する改良により, 従来の一様視覚トランスフォーマー構造は, モバイルレベルで最先端の成果を実現できる。
We improve the DeiT baseline by 9\% under the mobile-level settings and over other transformer architectures like Swin and CoaT by a large margin。
関連論文リスト
- Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。