論文の概要: Degenerate Swin to Win: Plain Window-based Transformer without
Sophisticated Operations
- arxiv url: http://arxiv.org/abs/2211.14255v1
- Date: Fri, 25 Nov 2022 17:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:20:05.205718
- Title: Degenerate Swin to Win: Plain Window-based Transformer without
Sophisticated Operations
- Title(参考訳): Degenerate Swin to Win:Sophisticated Operationsのない平易なウィンドウベースのトランス
- Authors: Tan Yu, Ping Li
- Abstract要約: Vision Transformerは、長い範囲の依存関係を特徴付けることができるより大きな受容フィールドを持つ。
効率を上げるために、ウィンドウベースのVision Transformerが登場した。
Swin Transformerのキーデザイン要素であるシフトウインドウパーティショニングの必要性を確認する。
- 参考スコア(独自算出の注目度): 36.57766081271396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The formidable accomplishment of Transformers in natural language processing
has motivated the researchers in the computer vision community to build Vision
Transformers. Compared with the Convolution Neural Networks (CNN), a Vision
Transformer has a larger receptive field which is capable of characterizing the
long-range dependencies. Nevertheless, the large receptive field of Vision
Transformer is accompanied by the huge computational cost. To boost efficiency,
the window-based Vision Transformers emerge. They crop an image into several
local windows, and the self-attention is conducted within each window. To bring
back the global receptive field, window-based Vision Transformers have devoted
a lot of efforts to achieving cross-window communications by developing several
sophisticated operations. In this work, we check the necessity of the key
design element of Swin Transformer, the shifted window partitioning. We
discover that a simple depthwise convolution is sufficient for achieving
effective cross-window communications. Specifically, with the existence of the
depthwise convolution, the shifted window configuration in Swin Transformer
cannot lead to an additional performance improvement. Thus, we degenerate the
Swin Transformer to a plain Window-based (Win) Transformer by discarding
sophisticated shifted window partitioning. The proposed Win Transformer is
conceptually simpler and easier for implementation than Swin Transformer.
Meanwhile, our Win Transformer achieves consistently superior performance than
Swin Transformer on multiple computer vision tasks, including image
recognition, semantic segmentation, and object detection.
- Abstract(参考訳): 自然言語処理におけるトランスフォーマーの驚異的な成果は、コンピュータビジョンコミュニティの研究者が視覚トランスフォーマーを構築する動機となった。
畳み込みニューラルネットワーク(cnn)と比較して、視覚トランスフォーマーは、長距離依存性を特徴付けることができるより大きな受容場を持つ。
それにもかかわらず、視覚トランスフォーマーの大きな受容場には膨大な計算コストが伴っている。
効率を高めるために、ウィンドウベースの視覚トランスフォーマーが出現する。
画像を複数のローカルウィンドウにトリミングし、各ウィンドウ内でセルフアテンションを行う。
グローバル受容領域を取り戻すため、ウィンドウベースのビジョントランスフォーマーは、いくつかの高度な操作を開発することで、クロスウィンドウ通信を実現するために多くの努力を払った。
本研究では,Swin Transformerのキーデザイン要素であるシフトウィンドウパーティショニングの必要性を確認する。
我々は,単純な奥行き方向畳み込みが効果的なクロスウィンドウ通信を実現するのに十分であることを見出した。
具体的には、奥行き方向の畳み込みが存在するため、スウィントランスのシフトウィンドウ構成は、さらなる性能向上に繋がることができない。
これにより、洗練されたシフトされたウィンドウパーティショニングを廃して、スウィントランスをプレーンウィンドウベース(ウィン)トランスに縮退させる。
提案されたWin Transformerは概念的にはSwin Transformerよりもシンプルで実装が容易である。
一方,画像認識,セマンティクスセグメンテーション,オブジェクト検出など複数のコンピュータビジョンタスクにおいて,winトランスフォーマティブはswinトランスフォーマよりも一貫して優れた性能を実現している。
関連論文リスト
- Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - Swin-Free: Achieving Better Cross-Window Attention and Efficiency with
Size-varying Window [6.158271948005819]
ローカルウィンドウ間の相互接続を実現するために,ウィンドウを切り替える代わりに,ステージ毎にサイズが変化するウィンドウを適用するSwin-Freeを提案する。
このシンプルな設計変更により、Swin-Freeはより正確な推論でSwin Transformerよりも高速に動作する。
論文 参考訳(メタデータ) (2023-06-23T20:19:58Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer [20.92010433074935]
そこで我々はShuffle Transformerという新しい視覚変換器を提案する。
提案アーキテクチャは,画像レベルの分類,オブジェクト検出,セマンティックセグメンテーションなど,幅広い視覚的タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-06-07T14:22:07Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。