論文の概要: SEMA: a Scalable and Efficient Mamba like Attention via Token Localization and Averaging
- arxiv url: http://arxiv.org/abs/2506.08297v1
- Date: Tue, 10 Jun 2025 00:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.873756
- Title: SEMA: a Scalable and Efficient Mamba like Attention via Token Localization and Averaging
- Title(参考訳): SEMA: トークンのローカライゼーションと平均化による,スケーラブルで効率的なMambaのようなアテンション
- Authors: Nhat Thanh Tran, Fanghui Xue, Shuai Zhang, Jiancheng Lyu, Yunling Zheng, Yingyong Qi, Jack Xin,
- Abstract要約: 一般的な枠組みの中で,バニラソフトマックスの注意と線形の注意の両方を定式化する。
一般化された注意が分散していること、すなわち、キーの数が無限大になる傾向があるため、クエリはすべてのキーに等しい重みを割り当てる。
注意力(SEMA)は線形注意を超越したスケーラブルで効果的な代替手段であることを示す。
- 参考スコア(独自算出の注目度): 6.141765857284547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention is the critical component of a transformer. Yet the quadratic computational complexity of vanilla full attention in the input size and the inability of its linear attention variant to focus have been challenges for computer vision tasks. We provide a mathematical definition of generalized attention and formulate both vanilla softmax attention and linear attention within the general framework. We prove that generalized attention disperses, that is, as the number of keys tends to infinity, the query assigns equal weights to all keys. Motivated by the dispersion property and recent development of Mamba form of attention, we design Scalable and Efficient Mamba like Attention (SEMA) which utilizes token localization to avoid dispersion and maintain focusing, complemented by theoretically consistent arithmetic averaging to capture global aspect of attention. We support our approach on Imagenet-1k where classification results show that SEMA is a scalable and effective alternative beyond linear attention, outperforming recent vision Mamba models on increasingly larger scales of images at similar model parameter sizes.
- Abstract(参考訳): 注意はトランスの重要な要素である。
しかし、バニラの2次計算複雑性は、入力サイズに完全に注意を払っており、その線形注意変種が集中できないことは、コンピュータビジョンタスクの課題である。
一般化された注意の数学的定義を提供し、一般的な枠組みの中でバニラソフトマックスの注意と線形の注意の両方を定式化する。
一般化された注意が分散していること、すなわち、キーの数が無限大になる傾向があるため、クエリはすべてのキーに等しい重みを割り当てる。
分散特性と近年のマンバ型注意力の発達により,トークンの局所化を回避し,集中の維持を図った,スケーラブルで効率的なマンバ型注意力 (SEMA) を設計し,理論的に一貫した算術平均化で補完し,注目のグローバルな側面を捉えた。
分類結果から,SEMAは線形注意を超越したスケーラブルで効果的な代替手段であることを示すImagenet-1kのアプローチをサポートし,同様のモデルパラメータサイズで画像の大規模化が進んでいる最近のビジョンであるMambaモデルより優れています。
関連論文リスト
- Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。