論文の概要: LocalViT: Analyzing Locality in Vision Transformers
- arxiv url: http://arxiv.org/abs/2104.05707v2
- Date: Wed, 12 Feb 2025 13:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:45:38.763124
- Title: LocalViT: Analyzing Locality in Vision Transformers
- Title(参考訳): LocalViT:視覚変換器の局所性の解析
- Authors: Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Michele Magno, Luca Benini, Luc Van Gool,
- Abstract要約: 本稿では,視覚変換器における局所性メカニズムの影響について検討する。
フィードフォワードネットワークに視覚変換器に局所性を加える。
ImageNet2012分類では、ローカリティ強化トランスフォーマーがベースラインを上回っている。
- 参考スコア(独自算出の注目度): 101.53997555864822
- License:
- Abstract: The aim of this paper is to study the influence of locality mechanisms in vision transformers. Transformers originated from machine translation and are particularly good at modelling long-range dependencies within a long sequence. Although the global interaction between the token embeddings could be well modelled by the self-attention mechanism of transformers, what is lacking is a locality mechanism for information exchange within a local region. In this paper, locality mechanism is systematically investigated by carefully designed controlled experiments. We add locality to vision transformers into the feed-forward network. This seemingly simple solution is inspired by the comparison between feed-forward networks and inverted residual blocks. The importance of locality mechanisms is validated in two ways: 1) A wide range of design choices (activation function, layer placement, expansion ratio) are available for incorporating locality mechanisms and proper choices can lead to a performance gain over the baseline, and 2) The same locality mechanism is successfully applied to vision transformers with different architecture designs, which shows the generalization of the locality concept. For ImageNet2012 classification, the locality-enhanced transformers outperform the baselines Swin-T, DeiT-T, and PVT-T by 1.0%, 2.6% and 3.1% with a negligible increase in the number of parameters and computational effort. Code is available at https://github.com/ofsoundof/LocalViT.
- Abstract(参考訳): 本研究の目的は,視覚変換器における局所性メカニズムの影響について検討することである。
トランスフォーマーは機械翻訳から派生したもので、特に長いシーケンス内での長距離依存のモデル化に長けている。
トークン埋め込み間のグローバルな相互作用は、変圧器の自己保持機構によってうまくモデル化できるが、その欠如は、局所領域における情報交換の局所性メカニズムである。
本稿では, 局所性機構を慎重に設計した制御実験により系統的に検討する。
フィードフォワードネットワークに視覚変換器に局所性を加える。
この一見単純な解は、フィードフォワードネットワークと逆残差ブロックの比較に着想を得たものである。
局所性メカニズムの重要性は、以下の2つの方法によって検証される。
1)局所性機構を取り入れた幅広い設計選択(活性化機能、層配置、拡張比率)が可能であり、適切な選択がベースラインよりも性能向上につながる可能性がある。
2) 同じ局所性機構を異なるアーキテクチャ設計の視覚変換器に適用し,局所性の概念の一般化を示す。
ImageNet2012の分類では、ローカリティ強化トランスフォーマーはSwin-T、DeiT-T、PVT-Tを1.0%、2.6%、3.1%で上回り、パラメータ数や計算労力は無視できない。
コードはhttps://github.com/ofsoundof/LocalViT.comで入手できる。
関連論文リスト
- Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Semantic-Aware Local-Global Vision Transformer [24.55333039729068]
セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。
我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。
このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
論文 参考訳(メタデータ) (2022-11-27T03:16:00Z) - Exploring Consistency in Cross-Domain Transformer for Domain Adaptive
Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。
このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。
ドメイン横断の注意層を持つアテンションマップに適応する。
論文 参考訳(メタデータ) (2022-11-27T02:40:33Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。