Fugu-MT 論文翻訳(概要): LocalViT: Bringing Locality to Vision Transformers

論文の概要: LocalViT: Bringing Locality to Vision Transformers

arxiv url: http://arxiv.org/abs/2104.05707v1
Date: Mon, 12 Apr 2021 17:59:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-13 16:27:10.298803
Title: LocalViT: Bringing Locality to Vision Transformers
Title（参考訳）: LocalViT:ビジョントランスフォーマーにローカリティをもたらす
Authors: Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool
Abstract要約: 線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
参考スコア（独自算出の注目度）: 132.42018183859483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study how to introduce locality mechanisms into vision transformers. The transformer network originates from machine translation and is particularly good at modelling long-range dependencies within a long sequence. Although the global interaction between the token embeddings could be well modelled by the self-attention mechanism of transformers, what is lacking a locality mechanism for information exchange within a local region. Yet, locality is essential for images since it pertains to structures like lines, edges, shapes, and even objects. We add locality to vision transformers by introducing depth-wise convolution into the feed-forward network. This seemingly simple solution is inspired by the comparison between feed-forward networks and inverted residual blocks. The importance of locality mechanisms is validated in two ways: 1) A wide range of design choices (activation function, layer placement, expansion ratio) are available for incorporating locality mechanisms and all proper choices can lead to a performance gain over the baseline, and 2) The same locality mechanism is successfully applied to 4 vision transformers, which shows the generalization of the locality concept. In particular, for ImageNet2012 classification, the locality-enhanced transformers outperform the baselines DeiT-T and PVT-T by 2.6\% and 3.1\% with a negligible increase in the number of parameters and computational effort. Code is available at \url{https://github.com/ofsoundof/LocalViT}.
Abstract（参考訳）: 視覚トランスフォーマーに局所性機構を導入する方法について検討する。トランスフォーマーネットワークは機械翻訳を起源とし、特に長いシーケンス内の長距離依存性のモデリングが得意である。トークン埋め込み間のグローバルな相互作用はトランスフォーマの自己着信機構によってうまくモデル化できるが、ローカル領域内の情報交換のための局所性機構が欠如している。しかし、画像の局所性は線、エッジ、形状、さらには物体といった構造に関係するため、画像にとって不可欠である。フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。この一見単純な解は、フィードフォワードネットワークと逆残差ブロックの比較に着想を得たものである。局所性機構の重要性は、1)局所性機構を組み込むために幅広い設計選択(活性化機能、層配置、拡張比)が利用可能であり、全ての適切な選択がベースラインよりも性能向上につながる可能性があり、2)同じ局所性機構が4つの視覚トランスフォーマにうまく適用され、局所性概念の一般化を示す。特に、ImageNet2012分類では、局所性に富んだ変換器は、パラメータの数と計算労力が無視できるほど増加し、ベースラインのDeiT-TとPVT-Tを2.6 %、および3.1 %で上回る。コードは \url{https://github.com/ofsoundof/LocalViT} で入手できる。

関連論文リスト

DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文参考訳（メタデータ） (2025-06-15T22:42:57Z)
Leveraging Swin Transformer for Local-to-Global Weakly Supervised Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。 SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。 SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文参考訳（メタデータ） (2024-01-31T13:41:17Z)
Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。 FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文参考訳（メタデータ） (2023-06-01T06:56:41Z)
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文参考訳（メタデータ） (2023-04-09T13:37:59Z)
Semantic-Aware Local-Global Vision Transformer [24.55333039729068]
セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
論文参考訳（メタデータ） (2022-11-27T03:16:00Z)
Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。ドメイン横断の注意層を持つアテンションマップに適応する。
論文参考訳（メタデータ） (2022-11-27T02:40:33Z)
LCTR: On Awakening the Local Continuity of Transformer for Weakly Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-10T01:48:40Z)
Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。 CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文参考訳（メタデータ） (2021-12-09T18:12:24Z)
Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文参考訳（メタデータ） (2021-07-10T02:34:55Z)
Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight [114.03127079555456]
Local Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを実現する。チャネルワイドな局所接続層として局所的な注意を解析する。スウィントランスフォーマーに比べて、深度ワイドの畳み込みに基づくモデルと、より低い複雑さを持つ動的変種がオンパーで、あるいはわずかに優れていることを実証的に観察する。
論文参考訳（メタデータ） (2021-06-08T11:47:44Z)
Conformer: Local Features Coupling Global Representations for Visual Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文参考訳（メタデータ） (2021-05-09T10:00:03Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。 TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文参考訳（メタデータ） (2021-02-27T21:48:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。