論文の概要: ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention
- arxiv url: http://arxiv.org/abs/2405.18425v1
- Date: Tue, 28 May 2024 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:11:13.223875
- Title: ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention
- Title(参考訳): ViG: Gated Linear Attention を用いた線形複雑視系列学習
- Authors: Bencheng Liao, Xinggang Wang, Lianghui Zhu, Qian Zhang, Chang Huang,
- Abstract要約: 我々は、Gated Linear Attention (GLA) を視覚に導入し、その優れたハードウェア認識と効率を活用している。
nameモデルは、ImageNetおよび下流タスクの精度、パラメータ、FLOPにおいて好ましいトレードオフを提供する。
name-Tは5.2$times$より少ないFLOPを使用し、90%のGPUメモリを節約し、4.8$times$高速に動作し、DeiT-Tより20.7%高いトップ1精度を持つ。
- 参考スコア(独自算出の注目度): 33.00435765051738
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, linear complexity sequence modeling networks have achieved modeling capabilities similar to Vision Transformers on a variety of computer vision tasks, while using fewer FLOPs and less memory. However, their advantage in terms of actual runtime speed is not significant. To address this issue, we introduce Gated Linear Attention (GLA) for vision, leveraging its superior hardware-awareness and efficiency. We propose direction-wise gating to capture 1D global context through bidirectional modeling and a 2D gating locality injection to adaptively inject 2D local details into 1D global context. Our hardware-aware implementation further merges forward and backward scanning into a single kernel, enhancing parallelism and reducing memory cost and latency. The proposed model, \name{}, offers a favorable trade-off in accuracy, parameters, and FLOPs on ImageNet and downstream tasks, outperforming popular Transformer and CNN-based models. Notably, \name{}-S matches DeiT-B's accuracy while using only 27\% of the parameters and 20\% of the FLOPs, running 2$\times$ faster on $224\times224$ images. At $1024\times1024$ resolution, \name{}-T uses 5.2$\times$ fewer FLOPs, saves 90\% GPU memory, runs 4.8$\times$ faster, and achieves 20.7\% higher top-1 accuracy than DeiT-T. These results position \name{} as an efficient and scalable solution for visual representation learning. Code is available at \url{https://github.com/hustvl/ViG}.
- Abstract(参考訳): 近年、線形複雑性シーケンスモデリングネットワークは様々なコンピュータビジョンタスクにおいてビジョントランスフォーマーに似たモデリング機能を実現し、FLOPの削減とメモリの削減を実現している。
しかし、実際の実行速度という点では、その優位性は重要ではない。
この問題に対処するため、我々はGated Linear Attention (GLA) を導入し、その優れたハードウェア認識と効率を活用している。
本研究では,2次元グローバルコンテキストに2次元局所的詳細を適応的に注入するために,双方向モデリングと2次元ゲティング局所性注入により1次元グローバルコンテキストを捕捉する方向ワイドゲーティングを提案する。
我々のハードウェア対応実装は、さらに前方および後方のスキャンを単一のカーネルにマージし、並列性を高め、メモリコストとレイテンシを低減する。
提案したモデルである \name{} は、ImageNet や下流タスクにおける精度、パラメータ、FLOPのトレードオフを提供し、人気のある Transformer や CNN ベースのモデルより優れている。
特に、 \name{}-S は、パラメータの 27 % と FLOP の 20 % しか使用せずに、DeiT-B の精度と一致する。
1024\times 1024$の解像度で、 \name{}-Tは5.2$\times$より少ないFLOPを使用し、90\%のGPUメモリを節約し、4.8$\times$より高速に動作し、DeiT-Tより20.7\%高いトップ1精度を達成する。
これらの結果は,視覚表現学習のための効率的でスケーラブルなソリューションとして, \name{} を位置づけている。
コードは \url{https://github.com/hustvl/ViG} で入手できる。
関連論文リスト
- DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。
同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Accelerating Generic Graph Neural Networks via Architecture, Compiler,
Partition Method Co-Design [15.500725014235412]
グラフニューラルネットワーク(GNN)は,さまざまなグラフ学習領域において,大幅な精度向上を実現している。
GNNモデルのための高性能かつ効率的なハードウェアアクセラレーションを開発することが不可欠である。
設計者は、GNNモデルの高帯域幅要求とGNNモデルの多様性の2つの根本的な課題に直面している。
論文 参考訳(メタデータ) (2023-08-16T07:05:47Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Boost Vision Transformer with GPU-Friendly Sparsity and Quantization [29.96026533220083]
本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。
実験結果によると、GPUSQ-ViT方式は、モデルサイズが6.4-12.7倍、FLOPが30.3-62倍のビジョントランスフォーマーモデルを減らし、最先端の圧縮を実現する。
論文 参考訳(メタデータ) (2023-05-18T05:55:48Z) - SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution
Vision Transformer [42.440822037774645]
我々は、最近のウィンドウベース視覚変換器(ViT)のアクティベーション空間を再考するSparseViTを紹介する。
SparseViTは、モノクロ3Dオブジェクト検出、2Dインスタンスセグメンテーション、および2Dセマンティックセグメンテーションにおいて、密度の高い1.5x、1.4x、1.3xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-03-30T17:59:58Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Early Convolutions Help Transformers See Better [63.21712652156238]
視覚変換器(ViT)モデルは準標準最適化性を示す。
現代の畳み込みニューラルネットワークは、最適化がはるかに容易である。
畳み込みステムをViTで使用すると、最適化の安定性が劇的に向上し、ピーク性能も向上する。
論文 参考訳(メタデータ) (2021-06-28T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。