論文の概要: Token Shift Transformer for Video Classification
- arxiv url: http://arxiv.org/abs/2108.02432v1
- Date: Thu, 5 Aug 2021 08:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:35:08.957709
- Title: Token Shift Transformer for Video Classification
- Title(参考訳): 映像分類のためのトークンシフト変換器
- Authors: Hao Zhang, Yanbin Hao, Chong-Wah Ngo
- Abstract要約: トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。
エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。
本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
- 参考スコア(独自算出の注目度): 34.05954523287077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer achieves remarkable successes in understanding 1 and
2-dimensional signals (e.g., NLP and Image Content Understanding). As a
potential alternative to convolutional neural networks, it shares merits of
strong interpretability, high discriminative power on hyper-scale data, and
flexibility in processing varying length inputs. However, its encoders
naturally contain computational intensive operations such as pair-wise
self-attention, incurring heavy computational burden when being applied on the
complex 3-dimensional video signals.
This paper presents Token Shift Module (i.e., TokShift), a novel,
zero-parameter, zero-FLOPs operator, for modeling temporal relations within
each transformer encoder. Specifically, the TokShift barely temporally shifts
partial [Class] token features back-and-forth across adjacent frames. Then, we
densely plug the module into each encoder of a plain 2D vision transformer for
learning 3D video representation. It is worth noticing that our TokShift
transformer is a pure convolutional-free video transformer pilot with
computational efficiency for video understanding. Experiments on standard
benchmarks verify its robustness, effectiveness, and efficiency. Particularly,
with input clips of 8/12 frames, the TokShift transformer achieves SOTA
precision: 79.83%/80.40% on the Kinetics-400, 66.56% on EGTEA-Gaze+, and 96.80%
on UCF-101 datasets, comparable or better than existing SOTA convolutional
counterparts. Our code is open-sourced in:
https://github.com/VideoNetworks/TokShift-Transformer.
- Abstract(参考訳): Transformerは1次元信号と2次元信号(NLPや画像コンテンツ理解など)の理解において顕著な成功を収めている。
畳み込みニューラルネットワークの潜在的な代替として、強い解釈可能性、ハイパースケールデータに対する高い識別力、および様々な長さ入力を処理する柔軟性のメリットを共有している。
しかし、エンコーダには自然にペアワイズセルフアテンションのような計算集約的な操作が含まれており、複雑な3次元映像信号に適用する際に重い計算負荷が発生する。
本稿では、トランスフォーマーエンコーダ内の時間関係をモデル化するための新しいゼロパラメータ、ゼロフロップス演算子であるトークンシフトモジュール(tokshift)を提案する。
具体的には、tokshiftは、部分[クラス]トークンを、隣り合うフレーム間で前後にほとんどシフトしない。
そして,モジュールをプレーンな2次元映像変換器の各エンコーダに密に接続し,3次元映像表現を学習する。
われわれのtokshiftトランスフォーマーは純粋な畳み込みフリーなビデオトランスフォーマーパイロットであり、ビデオ理解のための計算効率は高い。
標準ベンチマークの実験は、その堅牢性、有効性、効率を検証する。
特に8/12フレームの入力クリップでは、Kinetics-400では79.83%/80.40%、EGTEA-Gaze+では66.56%、UCF-101データセットでは96.80%のSOTA精度を実現している。
私たちのコードは、https://github.com/VideoNetworks/TokShift-Transformer.comでオープンソース化されています。
関連論文リスト
- Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文 参考訳(メタデータ) (2023-03-15T20:33:50Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - Deep Hyperspectral Unmixing using Transformer Network [7.3050653207383025]
トランスを用いた新しい深層混合モデルを提案する。
提案モデルは畳み込みオートエンコーダと変圧器の組み合わせである。
データは畳み込みデコーダを用いて再構成される。
論文 参考訳(メタデータ) (2022-03-31T14:47:36Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。