論文の概要: PolaFormer: Polarity-aware Linear Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2501.15061v1
- Date: Sat, 25 Jan 2025 03:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:15.486284
- Title: PolaFormer: Polarity-aware Linear Attention for Vision Transformers
- Title(参考訳): PolaFormer:ビジョントランスのためのポラリティ対応リニアアテンション
- Authors: Weikang Meng, Yadan Luo, Xin Li, Dongmei Jiang, Zheng Zhang,
- Abstract要約: 線形アテンションはソフトマックスベースのアテンションに代わる有望な代替手段として浮上している。
同一符号と反対符号の問合せキーの相互作用を明示的にモデル化する極性対応線形アテンション機構を提案する。
単純さと各次元の異なる寄与を認識するために、我々は再スケーリングのために学習可能なパワー関数を用いる。
- 参考スコア(独自算出の注目度): 16.35834984488344
- License:
- Abstract: Linear attention has emerged as a promising alternative to softmax-based attention, leveraging kernelized feature maps to reduce complexity from quadratic to linear in sequence length. However, the non-negative constraint on feature maps and the relaxed exponential function used in approximation lead to significant information loss compared to the original query-key dot products, resulting in less discriminative attention maps with higher entropy. To address the missing interactions driven by negative values in query-key pairs, we propose a polarity-aware linear attention mechanism that explicitly models both same-signed and opposite-signed query-key interactions, ensuring comprehensive coverage of relational information. Furthermore, to restore the spiky properties of attention maps, we provide a theoretical analysis proving the existence of a class of element-wise functions (with positive first and second derivatives) that can reduce entropy in the attention distribution. For simplicity, and recognizing the distinct contributions of each dimension, we employ a learnable power function for rescaling, allowing strong and weak attention signals to be effectively separated. Extensive experiments demonstrate that the proposed PolaFormer improves performance on various vision tasks, enhancing both expressiveness and efficiency by up to 4.6%.
- Abstract(参考訳): 線形アテンションはソフトマックスに基づくアテンションに代わる有望な代替品として現れ、カーネル化された特徴写像を利用して2次から線形のシーケンス長の複雑さを減らした。
しかし、特徴写像上の非負の制約と近似に使用される緩和指数関数は、元のクエリキードット生成物と比較して大きな情報損失をもたらし、より高いエントロピーを持つ識別的アテンションマップは減少する。
問合せキー対における負の値によって引き起こされる相互作用に対処するため,同符号と反対符号の問合せキーの相互作用を明示的にモデル化し,関係情報の包括的カバレッジを確保する極性を考慮した線形アテンション機構を提案する。
さらに、注意写像のスパイク特性を復元するために、注意分布のエントロピーを低減できる(正の第1および第2微分を持つ)要素ワイド関数のクラスの存在を証明する理論解析を提供する。
単純さと各次元の異なる寄与を認識するため、我々は学習可能なパワー関数を用いて再スケーリングを行い、強い注意信号と弱い注意信号を効果的に分離する。
広範な実験により、提案されたPolaFormerは様々な視覚タスクのパフォーマンスを改善し、表現性と効率を最大4.6%向上させることを示した。
関連論文リスト
- ESPFormer: Doubly-Stochastic Attention with Expected Sliced Transport Plans [13.695885742446027]
自己注意は、トレーニング中にいくつかのトークンを過度に集中させ、その結果、準最適情報フローをもたらす可能性がある。
我々は,スライスされた最適輸送に基づく,新しい並列化可能な二重確率的アテンション機構を提案する。
本手法はシンクホーンの正規化を繰り返すことなく二重性を強制し,効率を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T21:20:48Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - Linear Video Transformer with Feature Fixation [34.324346469406926]
ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T02:20:50Z) - Contrastive Learning Can Find An Optimal Basis For Approximately
View-Invariant Functions [18.440569330385323]
本稿では,複数のコントラスト学習手法を,固定正対カーネルを近似した学習カーネル関数として再解釈できることを示す。
このカーネルとPCAを組み合わせることで得られる単純な表現は、線形予測器の最悪の近似誤差を確実に最小化する。
論文 参考訳(メタデータ) (2022-10-04T20:02:52Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Joint Inference of Multiple Graphs from Matrix Polynomials [34.98220454543502]
ノード上の観測からグラフ構造を推定することは重要かつ一般的なネットワーク科学課題である。
ノードの信号の観測から複数のグラフを共同で推定する問題について検討する。
本稿では,真のグラフの回復を保証するための凸最適化手法を提案する。
論文 参考訳(メタデータ) (2020-10-16T02:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。