論文の概要: Linear Video Transformer with Feature Fixation
- arxiv url: http://arxiv.org/abs/2210.08164v1
- Date: Sat, 15 Oct 2022 02:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:47:05.576513
- Title: Linear Video Transformer with Feature Fixation
- Title(参考訳): 特徴固定付きリニアビデオトランス
- Authors: Kaiyue Lu, Zexiang Liu, Jianyuan Wang, Weixuan Sun, Zhen Qin, Dong Li,
Xuyang Shen, Hui Deng, Xiaodong Han, Yuchao Dai, Yiran Zhong
- Abstract要約: ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 34.324346469406926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers have achieved impressive performance in video
classification, while suffering from the quadratic complexity caused by the
Softmax attention mechanism. Some studies alleviate the computational costs by
reducing the number of tokens in attention calculation, but the complexity is
still quadratic. Another promising way is to replace Softmax attention with
linear attention, which owns linear complexity but presents a clear performance
drop. We find that such a drop in linear attention results from the lack of
attention concentration on critical features. Therefore, we propose a feature
fixation module to reweight the feature importance of the query and key before
computing linear attention. Specifically, we regard the query, key, and value
as various latent representations of the input token, and learn the feature
fixation ratio by aggregating Query-Key-Value information. This is beneficial
for measuring the feature importance comprehensively. Furthermore, we enhance
the feature fixation by neighborhood association, which leverages additional
guidance from spatial and temporal neighbouring tokens. The proposed method
significantly improves the linear attention baseline and achieves
state-of-the-art performance among linear video Transformers on three popular
video classification benchmarks. With fewer parameters and higher efficiency,
our performance is even comparable to some Softmax-based quadratic
Transformers.
- Abstract(参考訳): 視覚トランスフォーマーは、ソフトマックスアテンション機構によって引き起こされる二次的な複雑さに苦しめながら、ビデオ分類において素晴らしい性能を達成している。
注意計算におけるトークンの数を減らすことで計算コストを軽減する研究もあるが、複雑さは依然として二次的である。
もう一つの有望な方法は、線形の複雑さを持つが明確なパフォーマンス低下を示す、Softmaxの注意を線形の注意に置き換えることである。
このような線形注意の低下は、重要な特徴に対する注意集中の欠如によるものである。
そこで,線形注意を計算する前に,クエリとキーの特徴的重要性を再評価する機能固定モジュールを提案する。
具体的には、クエリ、キー、値を入力トークンの様々な潜在表現とみなし、Query-Key-Value情報を集約することで特徴固定率を学習する。
これは、機能の重要性を包括的に測定するのに役立ちます。
さらに,隣接トークンや時間トークンからの追加のガイダンスを活用し,地域連携による特徴の固定性を高める。
提案手法は, 線形アテンションベースラインを大幅に改善し, 3つの人気ビデオ分類ベンチマークにおいて, 線形ビデオ変換器の最先端性能を実現する。
パラメータが少なく、高い効率で、我々の性能はSoftmaxベースの二次変換器に匹敵する。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Efficient Linear Attention for Fast and Accurate Keypoint Matching [0.9699586426043882]
近年、トランスフォーマーはスパースマッチングにおける最先端の性能を提供し、高性能な3Dビジョンアプリケーションの実現に不可欠である。
しかし、これらの変換器は、注意機構の2次計算の複雑さのために効率を欠いている。
本稿では,グローバル情報とローカル情報の両方をスパースキーポイントから集約することで,高精度なアグリゲーションを実現する。
論文 参考訳(メタデータ) (2022-04-16T06:17:36Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。