論文の概要: Beyond Fixation: Dynamic Window Visual Transformer
- arxiv url: http://arxiv.org/abs/2203.12856v1
- Date: Thu, 24 Mar 2022 05:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 23:49:13.694468
- Title: Beyond Fixation: Dynamic Window Visual Transformer
- Title(参考訳): 固定以上のもの:動的ウィンドウビジュアルトランスフォーマー
- Authors: Pengzhen Ren, Changlin Li, Guangrun Wang, Yun Xiao, Qing Du Xiaodan
Liang Xiaojun Chang
- Abstract要約: 我々はDW-ViT(Dynamic Window Vision Transformer)という新しい手法を提案する。
DW-ViTでは、異なる大きさのウィンドウを異なるウィンドウ・マルチヘッド・セルフアテンションの異なるヘッドグループに割り当てることで、マルチスケール情報を得る。
DW-ViTは優れたスケーラビリティを示し、任意のウィンドウベースの視覚変換器に簡単に挿入できる。
- 参考スコア(独自算出の注目度): 19.982593341611796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a surge of interest in visual transformers is to reduce the
computational cost by limiting the calculation of self-attention to a local
window. Most current work uses a fixed single-scale window for modeling by
default, ignoring the impact of window size on model performance. However, this
may limit the modeling potential of these window-based models for multi-scale
information. In this paper, we propose a novel method, named Dynamic Window
Vision Transformer (DW-ViT). The dynamic window strategy proposed by DW-ViT
goes beyond the model that employs a fixed single window setting. To the best
of our knowledge, we are the first to use dynamic multi-scale windows to
explore the upper limit of the effect of window settings on model performance.
In DW-ViT, multi-scale information is obtained by assigning windows of
different sizes to different head groups of window multi-head self-attention.
Then, the information is dynamically fused by assigning different weights to
the multi-scale window branches. We conducted a detailed performance evaluation
on three datasets, ImageNet-1K, ADE20K, and COCO. Compared with related
state-of-the-art (SoTA) methods, DW-ViT obtains the best performance.
Specifically, compared with the current SoTA Swin Transformers
\cite{liu2021swin}, DW-ViT has achieved consistent and substantial improvements
on all three datasets with similar parameters and computational costs. In
addition, DW-ViT exhibits good scalability and can be easily inserted into any
window-based visual transformers.
- Abstract(参考訳): 近年,視覚変換器への関心の高まりは,局所窓への自己注意の計算を制限することで,計算コストの削減を図っている。
現在の作業のほとんどは、モデルパフォーマンスに対するウィンドウサイズの影響を無視しながら、デフォルトでは固定された単一スケールのウィンドウを使用する。
しかし、これはマルチスケール情報に対するこれらのウィンドウベースモデルのモデリング可能性を制限する可能性がある。
本稿では,DW-ViT(Dynamic Window Vision Transformer)という新しい手法を提案する。
DW-ViTが提案する動的ウィンドウ戦略は、固定された単一ウィンドウ設定を使用するモデルを超えている。
私たちの知る限りでは、動的なマルチスケールウィンドウを使用して、ウィンドウ設定がモデルパフォーマンスに与える影響の上限を調べました。
DW-ViTでは、異なるサイズのウィンドウを異なるウィンドウのヘッドグループに割り当て、マルチスケール情報を得る。
そして、異なる重みをマルチスケールウィンドウブランチに割り当てることで、情報を動的に融合する。
我々はImageNet-1K,ADE20K,COCOの3つのデータセットに対して詳細な性能評価を行った。
関連する最先端(SoTA)手法と比較して、DW-ViTは最高の性能を得る。
具体的には、現在の SoTA Swin Transformers \cite{liu2021swin} と比較して、DW-ViT は同様のパラメータと計算コストを持つ3つのデータセットに対して一貫性と実質的な改善を実現している。
さらに、DW-ViTは優れたスケーラビリティを示し、ウィンドウベースのビジュアルトランスフォーマーに簡単に挿入できる。
関連論文リスト
- HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - VSA: Learning Varied-Size Window Attention in Vision Transformers [76.35955924137986]
データから適応的なウィンドウ構成を学習するためのtextbfVaried-textbfSize Window textbfAttention (VSA)を提案する。
デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置を予測するためにウィンドウ回帰モジュールを使用する。
論文 参考訳(メタデータ) (2022-04-18T17:56:07Z) - MixFormer: Mixing Features across Windows and Dimensions [68.86393312123168]
ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
論文 参考訳(メタデータ) (2022-04-06T03:13:50Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - SimViT: Exploring a Simple Vision Transformer with sliding windows [3.3107339588116123]
視覚変換器に空間構造と局所情報を組み込む視覚変換器SimViTを導入する。
SimViTは、密集予測タスクのために異なるレイヤからマルチスケール階層的特徴を抽出する。
私たちのSimViT-Microは、ImageNet-1kデータセットで71.1%のトップ-1の精度を達成するのに、3.3Mパラメータしか必要としない。
論文 参考訳(メタデータ) (2021-12-24T15:18:20Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - What Makes for Hierarchical Vision Transformer? [46.848348453909495]
Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。
25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3%と比較して80.5%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2021-07-05T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。