論文の概要: ScalableViT: Rethinking the Context-oriented Generalization of Vision
Transformer
- arxiv url: http://arxiv.org/abs/2203.10790v1
- Date: Mon, 21 Mar 2022 08:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 14:26:47.569188
- Title: ScalableViT: Rethinking the Context-oriented Generalization of Vision
Transformer
- Title(参考訳): scalablevit: vision transformerのコンテキスト指向一般化を再考する
- Authors: Rui Yang, Hailong Ma, Jie Wu, Yansong Tang, Xuefeng Xiao, Min Zheng,
Xiu Li
- Abstract要約: 自己認識のメカニズムは本質的には、事前に定義された、あるいはよりステッドファストな計算次元に依存している。
本稿では,2つのスケーリング要素を利用してクエリ,キー,値行列の次元を解放し,それらを入力とアンバインドする,スケーラブルなセルフアテンション機構を提案する。
このスケーラビリティは、コンテキスト指向の一般化を引き合いに出し、オブジェクトの感度を高め、ネットワーク全体を精度とコストの間のより効果的なトレードオフ状態へと押し上げる。
- 参考スコア(独自算出の注目度): 26.546827590370054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vanilla self-attention mechanism inherently relies on pre-defined and
steadfast computational dimensions. Such inflexibility restricts it from
possessing context-oriented generalization that can bring more contextual cues
and global representations. To mitigate this issue, we propose a Scalable
Self-Attention (SSA) mechanism that leverages two scaling factors to release
dimensions of query, key, and value matrix while unbinding them with the input.
This scalability fetches context-oriented generalization and enhances object
sensitivity, which pushes the whole network into a more effective trade-off
state between accuracy and cost. Furthermore, we propose an Interactive
Window-based Self-Attention (IWSA), which establishes interaction between
non-overlapping regions by re-merging independent value tokens and aggregating
spatial information from adjacent windows. By stacking the SSA and IWSA
alternately, the Scalable Vision Transformer (ScalableViT) achieves
state-of-the-art performance in general-purpose vision tasks. For example,
ScalableViT-S outperforms Twins-SVT-S by 1.4% and Swin-T by 1.8% on ImageNet-1K
classification.
- Abstract(参考訳): バニラ自己アテンション機構は、本質的には事前に定義された計算次元とステッドファスト計算次元に依存する。
このような非フレキシビリティは、よりコンテキスト的なキューやグローバルな表現をもたらすようなコンテキスト指向の一般化を持つことから制限される。
この問題を軽減するため,我々は2つのスケーリング要素を利用してクエリ,キー,バリューマトリックスの次元を解放し,それらを入力とアンバインディングするスケーラブルなセルフアテンション(ssa)メカニズムを提案する。
このスケーラビリティは、コンテキスト指向の一般化を引き合いに出し、オブジェクトの感度を高め、ネットワーク全体を精度とコストの間のより効果的なトレードオフ状態へと押し上げる。
さらに、独立値トークンを再統合し、隣接するウィンドウから空間情報を集約することにより、重複しない領域間の相互作用を確立する対話型ウィンドウベースの自己認識(IWSA)を提案する。
SSAとIWSAを交互に積み重ねることで、Scalable Vision Transformer (ScalableViT)は汎用視覚タスクにおける最先端のパフォーマンスを達成する。
例えば、ScalableViT-SはTwins-SVT-Sを1.4%、Swin-Tを1.8%上回っている。
関連論文リスト
- Factorization Vision Transformer: Modeling Long Range Dependency with
Local Window Cost [25.67071603343174]
本稿では,ローカルウィンドウコストと長期依存性モデリング機能の両方の利点を享受できる因子分解自己注意機構を提案する。
FaViTは、入力画像空間分解能に関する線形計算複雑性により、高い性能とロバスト性を達成する。
FaViT-B2は, モデルパラメータを14%削減しつつ, 分類精度を1%, 頑健性を7%向上させる。
論文 参考訳(メタデータ) (2023-12-14T02:38:12Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Lite Vision Transformer with Enhanced Self-Attention [39.32480787105232]
2つの拡張自己注意機構を持つ新しい軽量ビジョントランスネットワークLVTを提案する。
低レベルの機能については、CSA(Convolutional Self-Attention)を紹介します。
高次機能のために、再帰的アトラス自己注意(RASA)を提案する。
論文 参考訳(メタデータ) (2021-12-20T19:11:53Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。