論文の概要: Rethinking Local Perception in Lightweight Vision Transformer
- arxiv url: http://arxiv.org/abs/2303.17803v2
- Date: Mon, 3 Apr 2023 11:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 11:37:14.313104
- Title: Rethinking Local Perception in Lightweight Vision Transformer
- Title(参考訳): 軽量ビジョントランスにおける局所認識の再考
- Authors: Qihang Fan, Huaibo Huang, Jiyang Guan, Ran He
- Abstract要約: 本稿では,コンテキスト認識型局所拡張を利用した軽量な視覚変換器であるCloFormerを紹介する。
提案したAttnConvでは、共有ウェイトを使用してローカル情報を集約し、ローカル機能を強化するために慎重に設計されたコンテキスト対応ウェイトをデプロイする。
CloFormerのFLOPを減らすためにプールを使用するAttnConvとバニラアテンションを組み合わせることで、モデルは高周波と低周波の情報を認識することができる。
- 参考スコア(独自算出の注目度): 63.65115590184169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have been shown to be effective in various vision
tasks. However, resizing them to a mobile-friendly size leads to significant
performance degradation. Therefore, developing lightweight vision transformers
has become a crucial area of research. This paper introduces CloFormer, a
lightweight vision transformer that leverages context-aware local enhancement.
CloFormer explores the relationship between globally shared weights often used
in vanilla convolutional operators and token-specific context-aware weights
appearing in attention, then proposes an effective and straightforward module
to capture high-frequency local information. In CloFormer, we introduce
AttnConv, a convolution operator in attention's style. The proposed AttnConv
uses shared weights to aggregate local information and deploys carefully
designed context-aware weights to enhance local features. The combination of
the AttnConv and vanilla attention which uses pooling to reduce FLOPs in
CloFormer enables the model to perceive high-frequency and low-frequency
information. Extensive experiments were conducted in image classification,
object detection, and semantic segmentation, demonstrating the superiority of
CloFormer.
- Abstract(参考訳): 視覚変換器(ViT)は様々な視覚タスクに有効であることが示されている。
しかし、それらをモバイルフレンドリーなサイズにリサイズすると、パフォーマンスが大幅に低下する。
そのため、軽量な視覚トランスフォーマーの開発は重要な研究分野となっている。
本稿では,コンテキスト対応の局所拡張を利用した軽量視覚トランスフォーマであるcloformerを紹介する。
cloformerは、バニラ畳み込み演算子でよく使われるグローバルな共有重みと注意を向けるトークン固有のコンテキスト認識重みの関係を探求し、高頻度の局所情報をキャプチャする効果的で簡単なモジュールを提案する。
CloFormerでは、注意スタイルの畳み込み演算子であるAttnConvを紹介します。
提案するattnconvは、共有重みを使ってローカル情報を集約し、注意深く設計されたコンテキストアウェア重みを配置し、ローカル機能を強化する。
CloFormerのFLOPを減らすためにプールを使用するAttnConvとバニラアテンションを組み合わせることで、モデルは高周波と低周波の情報を認識することができる。
画像分類,物体検出,意味セグメンテーションなどの広範な実験を行い,cloformerの優位性を実証した。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Preserving Locality in Vision Transformers for Class Incremental
Learning [54.696808348218426]
ViTを漸進的に訓練すると、注目層は徐々に局所的な特徴に集中できなくなる。
ローカル機能の重要性を強調するために、ローカル性保存アテンション層を考案する。
改良されたモデルは、CIFAR100とImageNet100で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-14T07:42:21Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Demystifying Local Vision Transformer: Sparse Connectivity, Weight
Sharing, and Dynamic Weight [114.03127079555456]
Local Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを実現する。
チャネルワイドな局所接続層として局所的な注意を解析する。
スウィントランスフォーマーに比べて、深度ワイドの畳み込みに基づくモデルと、より低い複雑さを持つ動的変種がオンパーで、あるいはわずかに優れていることを実証的に観察する。
論文 参考訳(メタデータ) (2021-06-08T11:47:44Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。