論文の概要: ACC-ViT : Atrous Convolution's Comeback in Vision Transformers
- arxiv url: http://arxiv.org/abs/2403.04200v1
- Date: Thu, 7 Mar 2024 04:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:15:22.920727
- Title: ACC-ViT : Atrous Convolution's Comeback in Vision Transformers
- Title(参考訳): ACC-ViT : 視覚変換器におけるアトラス畳み込みの復活
- Authors: Nabil Ibtehaz, Ning Yan, Masood Mortazavi, Daisuke Kihara
- Abstract要約: 我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
- 参考スコア(独自算出の注目度): 5.224344210588584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have elevated to the state-of-the-art vision architectures
through innovations in attention mechanism inspired from visual perception. At
present two classes of attentions prevail in vision transformers, regional and
sparse attention. The former bounds the pixel interactions within a region; the
latter spreads them across sparse grids. The opposing natures of them have
resulted in a dilemma between either preserving hierarchical relation or
attaining a global context. In this work, taking inspiration from atrous
convolution, we introduce Atrous Attention, a fusion of regional and sparse
attention, which can adaptively consolidate both local and global information,
while maintaining hierarchical relations. As a further tribute to atrous
convolution, we redesign the ubiquitous inverted residual convolution blocks
with atrous convolution. Finally, we propose a generalized, hybrid vision
transformer backbone, named ACC-ViT, following conventional practices for
standard vision tasks. Our tiny version model achieves $\sim 84 \%$ accuracy on
ImageNet-1K, with less than $28.5$ million parameters, which is $0.42\%$
improvement over state-of-the-art MaxViT while having $8.4\%$ less parameters.
In addition, we have investigated the efficacy of ACC-ViT backbone under
different evaluation settings, such as finetuning, linear probing, and
zero-shot learning on tasks involving medical image analysis, object detection,
and language-image contrastive learning. ACC-ViT is therefore a strong vision
backbone, which is also competitive in mobile-scale versions, ideal for niche
applications with small datasets.
- Abstract(参考訳): トランスフォーマーは、視覚知覚にインスパイアされた注意メカニズムの革新を通じて、最先端のビジョンアーキテクチャに昇格した。
現在、視覚変換器、地域的、まばらな注意の2つのクラスが注目されている。
前者は領域内のピクセル相互作用を境界とし、後者はスパースグリッドに展開する。
それらの対立する性質は、階層的関係を維持するか、大域的な文脈に到達するかのどちらかにジレンマをもたらす。
本研究では,アトラス・コンボリューションからインスピレーションを得て,アトラス・アテンション(Atrous Attention)を導入し,地域情報とグローバル情報の両方を適応的に統合し,階層的関係を維持する。
アトルス畳み込みのさらなる貢献として、アトルス畳み込みを伴うユビキタス逆転残し畳み込みブロックを再設計する。
最後に、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般化されたハイブリッドビジョントランスフォーマーバックボーンを提案する。
私たちの小さなバージョンモデルは、ImageNet-1Kで$\sim 84 \%$精度を実現しており、パラメータは28.5ドル以下で、最新版MaxViTよりも0.42\%$改善され、パラメータは8.4\%低い。
また, 画像解析, 物体検出, 言語画像のコントラスト学習などのタスクにおいて, 微調整, 線形探索, ゼロショット学習などの異なる評価条件下でのACC-ViTバックボーンの有効性を検討した。
そのためACC-ViTは強力なビジョンバックボーンであり、モバイルスケールバージョンでも競争力があり、小さなデータセットを持つニッチアプリケーションに理想的である。
関連論文リスト
- Fusion of regional and sparse attention in Vision Transformers [4.782322901897837]
現代の視覚変換器は、ウィンドウやグリッド領域内で計算された注意を通して、ピクセル間の視覚的にインスパイアされた局所的な相互作用を利用する。
本稿では,地域情報とグローバル情報の両方を動的に統合した,地域的・疎外的な注意の混合であるAtrous Attentionを提案する。
我々のコンパクトモデルは、2850万パラメータ未満のImageNet-1Kで約84%の精度を達成し、最先端のMaxViTを0.42%上回った。
論文 参考訳(メタデータ) (2024-06-13T06:48:25Z) - TiC: Exploring Vision Transformer in Convolution [37.50285921899263]
マルチヘッド・セルフアテンション・コンボリューション(MSA-Conv)を提案する。
MSA-Convは、標準、拡張された、深みのあるものを含む一般的な畳み込みの中に自己認識を組み込んでいる。
本稿では,MSA-Convを用いた画像分類の概念実証として,TiC(Vision Transformer in Convolution)を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:16:26Z) - ACC-UNet: A Completely Convolutional UNet model for the 2020s [2.7013801448234367]
ACC-UNet は完全に畳み込み型 UNet モデルであり、コンブネットの固有の帰納バイアスとトランスフォーマーの設計決定を両世界の長所から得ている。
ACC-UNetは、5つの異なる医用画像セグメンテーションベンチマークで評価され、一貫してコンブネット、トランスフォーマー、およびそれらのハイブリッドよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T21:39:43Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。