論文の概要: SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention
- arxiv url: http://arxiv.org/abs/2601.11164v1
- Date: Fri, 16 Jan 2026 10:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.449692
- Title: SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention
- Title(参考訳): SoLA-Vision:きめ細かい層状リニアソフトマックスハイブリッドアテンション
- Authors: Ruibang Li, Guan Luo, Yiwei Zhang, Jin Gao, Bing Li, Weiming Hu,
- Abstract要約: 線形注意はコストをO(N)に還元するが、圧縮された状態表現はモデリング能力と精度を損なう。
本稿では,視覚表現学習における線形およびソフトマックスの注意を対比する分析的研究について述べる。
フレキシブルな層状ハイブリッドアテンションバックボーンであるSoLA-Visionを提案する。
- 参考スコア(独自算出の注目度): 50.99430451151184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard softmax self-attention excels in vision tasks but incurs quadratic complexity O(N^2), limiting high-resolution deployment. Linear attention reduces the cost to O(N), yet its compressed state representations can impair modeling capacity and accuracy. We present an analytical study that contrasts linear and softmax attention for visual representation learning from a layer-stacking perspective. We further conduct systematic experiments on layer-wise hybridization patterns of linear and softmax attention. Our results show that, compared with rigid intra-block hybrid designs, fine-grained layer-wise hybridization can match or surpass performance while requiring fewer softmax layers. Building on these findings, we propose SoLA-Vision (Softmax-Linear Attention Vision), a flexible layer-wise hybrid attention backbone that enables fine-grained control over how linear and softmax attention are integrated. By strategically inserting a small number of global softmax layers, SoLA-Vision achieves a strong trade-off between accuracy and computational cost. On ImageNet-1K, SoLA-Vision outperforms purely linear and other hybrid attention models. On dense prediction tasks, it consistently surpasses strong baselines by a considerable margin. Code will be released.
- Abstract(参考訳): 標準的なソフトマックス自己注意は視覚タスクでは優れるが、2次複雑性O(N^2)を発生させ、高分解能展開を制限する。
線形注意はコストをO(N)に還元するが、圧縮された状態表現はモデリング能力と精度を損なう。
本稿では,レイヤスタッキングの観点からの視覚表現学習において,線形およびソフトマックスの注意を対比する分析的研究を行う。
さらに,線形およびソフトマックス注意の層ワイドハイブリダイゼーションパターンに関する系統実験を行った。
本結果より, 硬質ブロック内ハイブリッド設計と比較して, ソフトマックス層を少なくしながら, 微粒層ワイドハイブリダイゼーションが性能に適合するか, あるいは超越するかが示唆された。
そこで本研究では,SoLA-Vision(Softmax-Linear Attention Vision)を提案する。
少数のグローバルなソフトマックス層を戦略的に挿入することにより、SoLA-Visionは精度と計算コストの強いトレードオフを達成する。
ImageNet-1Kでは、SoLA-Visionは純粋に線形や他のハイブリッドアテンションモデルよりも優れている。
密接な予測タスクでは、強いベースラインをかなりの差で一貫して超える。
コードはリリースされる。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。