論文の概要: ViT-AdaLA: Adapting Vision Transformers with Linear Attention
- arxiv url: http://arxiv.org/abs/2603.16063v1
- Date: Tue, 17 Mar 2026 02:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.070688
- Title: ViT-AdaLA: Adapting Vision Transformers with Linear Attention
- Title(参考訳): ViT-AdaLA: 線形注意による視覚変換器の適応
- Authors: Yifan Li, Seunghyun Yoon, Viet Dac Lai, Franck Dernoncourt, Jason Kuen, Yu Kong, Trung Bui,
- Abstract要約: ビジョントランスフォーマー (ViT) ベースの視覚基礎モデル (VFM) は、様々な視覚タスクにおいて顕著な性能を達成している。
ViTの既存の線形アテンションアプローチは、通常、スクラッチから訓練され、かなりの計算資源を必要とする。
本稿では,VFMから線形注意への事前知識の適応と伝達を効果的に行う新しいフレームワークであるViT-AdaLAを提案する。
- 参考スコア(独自算出の注目度): 71.36851471416034
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision Transformers (ViTs) based vision foundation models (VFMs) have achieved remarkable performance across diverse vision tasks, but suffer from quadratic complexity that limits scalability to long sequences. Existing linear attention approaches for ViTs are typically trained from scratch, requiring substantial computational resources, while linearization-based methods developed for large language model decoders do not transfer well to ViTs. To address these challenges, we propose ViT-AdaLA, a novel framework for effectively adapting and transferring prior knowledge from VFMs to linear attention ViTs. ViT-AdaLA consists of three stages: attention alignment, feature alignment, and supervised fine-tuning. In the attention alignment stage, we align vanilla linear attention with the original softmax-based attention in each block to approximate the behavior of softmax attention. However, residual approximation errors inevitably accumulate across layers. We mitigate this by fine-tuning the linearized ViT to align its final-layer features with a frozen softmax VFM teacher. Finally, the adapted prior knowledge is transferred to downstream tasks through supervised fine-tuning. Extensive experiments on classification and segmentation tasks demonstrate the effectiveness and generality of ViT-AdaLA over various state-of-the-art linear attention counterpart.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) ベースの視覚基礎モデル (VFM) は、様々な視覚タスクにまたがる優れた性能を達成しているが、スケーラビリティを長いシーケンスに制限する二次的な複雑さに悩まされている。
既存のViTに対する線形アテンションアプローチは、通常、スクラッチから訓練され、かなりの計算資源を必要とするが、大規模言語モデルデコーダ用に開発された線形化ベースの手法は、ViTにうまく移行しない。
これらの課題に対処するために、VFMから線形注意への事前知識の適応と伝達を効果的に行う新しいフレームワークであるViT-AdaLAを提案する。
ViT-AdaLAは、アテンションアライメント、特徴アライメント、教師付き微調整の3段階からなる。
注目アライメント段階において、各ブロックにおけるバニラ線形アライメントと元のソフトマックスベースアライメントを一致させて、ソフトマックスアライメントの挙動を近似する。
しかし、残差近似誤差は必然的に層間に蓄積する。
我々は、リニアライズされたViTを微調整して、最終層の特徴を凍結ソフトマックスVFM教師と整合させることにより、これを緩和する。
最後に、適応された事前知識は教師付き微調整によって下流タスクに転送される。
分類とセグメンテーションタスクに関する広範な実験は、様々な最先端の線形注意相手に対するViT-AdaLAの有効性と一般性を示している。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - HSViT: Horizontally Scalable Vision Transformer [16.46308352393693]
Vision Transformer (ViT) は大規模データセットの事前トレーニングが必要であり、パフォーマンスが向上する。
本稿では,新しい水平方向拡張型ビジョントランス (HSViT) 方式を提案する。
HSViTは、小さなデータセットの最先端スキームよりも最大10%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-04-08T04:53:29Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention [23.874485033096917]
Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
論文 参考訳(メタデータ) (2022-11-09T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。