論文の概要: Swin-Free: Achieving Better Cross-Window Attention and Efficiency with
Size-varying Window
- arxiv url: http://arxiv.org/abs/2306.13776v1
- Date: Fri, 23 Jun 2023 20:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 19:20:47.782006
- Title: Swin-Free: Achieving Better Cross-Window Attention and Efficiency with
Size-varying Window
- Title(参考訳): Swin-Free: サイズが変わるウィンドウで、クロスウィンドウの注意力と効率性を向上
- Authors: Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park
- Abstract要約: ローカルウィンドウ間の相互接続を実現するために,ウィンドウを切り替える代わりに,ステージ毎にサイズが変化するウィンドウを適用するSwin-Freeを提案する。
このシンプルな設計変更により、Swin-Freeはより正確な推論でSwin Transformerよりも高速に動作する。
- 参考スコア(独自算出の注目度): 6.158271948005819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have shown great potential in computer vision, following
their success in language tasks. Swin Transformer is one of them that
outperforms convolution-based architectures in terms of accuracy, while
improving efficiency when compared to Vision Transformer (ViT) and its
variants, which have quadratic complexity with respect to the input size. Swin
Transformer features shifting windows that allows cross-window connection while
limiting self-attention computation to non-overlapping local windows. However,
shifting windows introduces memory copy operations, which account for a
significant portion of its runtime. To mitigate this issue, we propose
Swin-Free in which we apply size-varying windows across stages, instead of
shifting windows, to achieve cross-connection among local windows. With this
simple design change, Swin-Free runs faster than the Swin Transformer at
inference with better accuracy. Furthermore, we also propose a few of Swin-Free
variants that are faster than their Swin Transformer counterparts.
- Abstract(参考訳): トランスフォーマーモデルは、言語タスクの成功に続いて、コンピュータビジョンにおいて大きな可能性を示している。
Swin Transformerは、ViT(Vision Transformer)と、入力サイズに関して2次複雑さを持つその変種と比較して、効率を向上しながら、畳み込みベースのアーキテクチャを精度で上回っている。
Swin Transformerは、ウィンドウ間の接続を可能とし、自己アテンション計算を重複しないローカルウィンドウに制限するシフトウィンドウを備えている。
しかし、windowsへの移行は、そのランタイムのかなりの部分を占めるメモリコピー操作を導入している。
この問題を軽減するため,我々は,ローカルウィンドウ間の相互接続を実現するために,ウィンドウをシフトするのではなく,ステージ毎にサイズ可変ウィンドウを適用するスウィンフリー方式を提案する。
この単純な設計変更により、スウィンフリーは推論精度が向上し、スウィントランスよりも高速に動作する。
さらに,swinトランスフォーマーよりも高速であるswinフリーの変種をいくつか提案する。
関連論文リスト
- HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Degenerate Swin to Win: Plain Window-based Transformer without
Sophisticated Operations [36.57766081271396]
Vision Transformerは、長い範囲の依存関係を特徴付けることができるより大きな受容フィールドを持つ。
効率を上げるために、ウィンドウベースのVision Transformerが登場した。
Swin Transformerのキーデザイン要素であるシフトウインドウパーティショニングの必要性を確認する。
論文 参考訳(メタデータ) (2022-11-25T17:36:20Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-08-03T09:56:07Z) - What Makes for Hierarchical Vision Transformer? [46.848348453909495]
Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。
25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3%と比較して80.5%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2021-07-05T17:59:35Z) - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [44.086393272557416]
本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。
COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2mIoUという大きなマージンで、トランスフォーマーベースのモデルのビジョンバックボーンとしての可能性を実証しています。
論文 参考訳(メタデータ) (2021-03-25T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。