論文の概要: LocalViT: Bringing Locality to Vision Transformers
- arxiv url: http://arxiv.org/abs/2104.05707v1
- Date: Mon, 12 Apr 2021 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 16:27:10.298803
- Title: LocalViT: Bringing Locality to Vision Transformers
- Title(参考訳): LocalViT:ビジョントランスフォーマーにローカリティをもたらす
- Authors: Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool
- Abstract要約: 線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
- 参考スコア(独自算出の注目度): 132.42018183859483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to introduce locality mechanisms into vision transformers. The
transformer network originates from machine translation and is particularly
good at modelling long-range dependencies within a long sequence. Although the
global interaction between the token embeddings could be well modelled by the
self-attention mechanism of transformers, what is lacking a locality mechanism
for information exchange within a local region. Yet, locality is essential for
images since it pertains to structures like lines, edges, shapes, and even
objects.
We add locality to vision transformers by introducing depth-wise convolution
into the feed-forward network. This seemingly simple solution is inspired by
the comparison between feed-forward networks and inverted residual blocks. The
importance of locality mechanisms is validated in two ways: 1) A wide range of
design choices (activation function, layer placement, expansion ratio) are
available for incorporating locality mechanisms and all proper choices can lead
to a performance gain over the baseline, and 2) The same locality mechanism is
successfully applied to 4 vision transformers, which shows the generalization
of the locality concept. In particular, for ImageNet2012 classification, the
locality-enhanced transformers outperform the baselines DeiT-T and PVT-T by
2.6\% and 3.1\% with a negligible increase in the number of parameters and
computational effort. Code is available at
\url{https://github.com/ofsoundof/LocalViT}.
- Abstract(参考訳): 視覚トランスフォーマーに局所性機構を導入する方法について検討する。
トランスフォーマーネットワークは機械翻訳を起源とし、特に長いシーケンス内の長距離依存性のモデリングが得意である。
トークン埋め込み間のグローバルな相互作用はトランスフォーマの自己着信機構によってうまくモデル化できるが、ローカル領域内の情報交換のための局所性機構が欠如している。
しかし、画像の局所性は線、エッジ、形状、さらには物体といった構造に関係するため、画像にとって不可欠である。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見単純な解は、フィードフォワードネットワークと逆残差ブロックの比較に着想を得たものである。
局所性機構の重要性は、1)局所性機構を組み込むために幅広い設計選択(活性化機能、層配置、拡張比)が利用可能であり、全ての適切な選択がベースラインよりも性能向上につながる可能性があり、2)同じ局所性機構が4つの視覚トランスフォーマにうまく適用され、局所性概念の一般化を示す。
特に、ImageNet2012分類では、局所性に富んだ変換器は、パラメータの数と計算労力が無視できるほど増加し、ベースラインのDeiT-TとPVT-Tを2.6 %、および3.1 %で上回る。
コードは \url{https://github.com/ofsoundof/LocalViT} で入手できる。
関連論文リスト
- Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文 参考訳(メタデータ) (2023-04-09T13:37:59Z) - Semantic-Aware Local-Global Vision Transformer [24.55333039729068]
セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。
我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。
このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
論文 参考訳(メタデータ) (2022-11-27T03:16:00Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Demystifying Local Vision Transformer: Sparse Connectivity, Weight
Sharing, and Dynamic Weight [114.03127079555456]
Local Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを実現する。
チャネルワイドな局所接続層として局所的な注意を解析する。
スウィントランスフォーマーに比べて、深度ワイドの畳み込みに基づくモデルと、より低い複雑さを持つ動的変種がオンパーで、あるいはわずかに優れていることを実証的に観察する。
論文 参考訳(メタデータ) (2021-06-08T11:47:44Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。