論文の概要: Linear Video Transformer with Feature Fixation
- arxiv url: http://arxiv.org/abs/2210.08164v1
- Date: Sat, 15 Oct 2022 02:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:47:05.576513
- Title: Linear Video Transformer with Feature Fixation
- Title(参考訳): 特徴固定付きリニアビデオトランス
- Authors: Kaiyue Lu, Zexiang Liu, Jianyuan Wang, Weixuan Sun, Zhen Qin, Dong Li,
Xuyang Shen, Hui Deng, Xiaodong Han, Yuchao Dai, Yiran Zhong
- Abstract要約: ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 34.324346469406926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers have achieved impressive performance in video
classification, while suffering from the quadratic complexity caused by the
Softmax attention mechanism. Some studies alleviate the computational costs by
reducing the number of tokens in attention calculation, but the complexity is
still quadratic. Another promising way is to replace Softmax attention with
linear attention, which owns linear complexity but presents a clear performance
drop. We find that such a drop in linear attention results from the lack of
attention concentration on critical features. Therefore, we propose a feature
fixation module to reweight the feature importance of the query and key before
computing linear attention. Specifically, we regard the query, key, and value
as various latent representations of the input token, and learn the feature
fixation ratio by aggregating Query-Key-Value information. This is beneficial
for measuring the feature importance comprehensively. Furthermore, we enhance
the feature fixation by neighborhood association, which leverages additional
guidance from spatial and temporal neighbouring tokens. The proposed method
significantly improves the linear attention baseline and achieves
state-of-the-art performance among linear video Transformers on three popular
video classification benchmarks. With fewer parameters and higher efficiency,
our performance is even comparable to some Softmax-based quadratic
Transformers.
- Abstract(参考訳): 視覚トランスフォーマーは、ソフトマックスアテンション機構によって引き起こされる二次的な複雑さに苦しめながら、ビデオ分類において素晴らしい性能を達成している。
注意計算におけるトークンの数を減らすことで計算コストを軽減する研究もあるが、複雑さは依然として二次的である。
もう一つの有望な方法は、線形の複雑さを持つが明確なパフォーマンス低下を示す、Softmaxの注意を線形の注意に置き換えることである。
このような線形注意の低下は、重要な特徴に対する注意集中の欠如によるものである。
そこで,線形注意を計算する前に,クエリとキーの特徴的重要性を再評価する機能固定モジュールを提案する。
具体的には、クエリ、キー、値を入力トークンの様々な潜在表現とみなし、Query-Key-Value情報を集約することで特徴固定率を学習する。
これは、機能の重要性を包括的に測定するのに役立ちます。
さらに,隣接トークンや時間トークンからの追加のガイダンスを活用し,地域連携による特徴の固定性を高める。
提案手法は, 線形アテンションベースラインを大幅に改善し, 3つの人気ビデオ分類ベンチマークにおいて, 線形ビデオ変換器の最先端性能を実現する。
パラメータが少なく、高い効率で、我々の性能はSoftmaxベースの二次変換器に匹敵する。
関連論文リスト
- FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Efficient Linear Attention for Fast and Accurate Keypoint Matching [0.9699586426043882]
近年、トランスフォーマーはスパースマッチングにおける最先端の性能を提供し、高性能な3Dビジョンアプリケーションの実現に不可欠である。
しかし、これらの変換器は、注意機構の2次計算の複雑さのために効率を欠いている。
本稿では,グローバル情報とローカル情報の両方をスパースキーポイントから集約することで,高精度なアグリゲーションを実現する。
論文 参考訳(メタデータ) (2022-04-16T06:17:36Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。