論文の概要: Efficient Video Transformers with Spatial-Temporal Token Selection
- arxiv url: http://arxiv.org/abs/2111.11591v1
- Date: Tue, 23 Nov 2021 00:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:59:11.355390
- Title: Efficient Video Transformers with Spatial-Temporal Token Selection
- Title(参考訳): 時空間トークン選択機能を有する高能率ビデオトランスフォーマ
- Authors: Junke Wang, Xitong Yang, Hengduo Li, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。
我々のフレームワークは、20%の計算を必要としながら、同様の結果を得る。
- 参考スコア(独自算出の注目度): 68.27784654734396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video transformers have achieved impressive results on major video
recognition benchmarks, however they suffer from high computational cost. In
this paper, we present STTS, a token selection framework that dynamically
selects a few informative tokens in both temporal and spatial dimensions
conditioned on input video samples. Specifically, we formulate token selection
as a ranking problem, which estimates the importance of each token through a
lightweight selection network and only those with top scores will be used for
downstream evaluation. In the temporal dimension, we keep the frames that are
most relevant for recognizing action categories, while in the spatial
dimension, we identify the most discriminative region in feature maps without
affecting spatial context used in a hierarchical way in most video
transformers. Since the decision of token selection is non-differentiable, we
employ a perturbed-maximum based differentiable Top-K operator for end-to-end
training. We conduct extensive experiments on Kinetics-400 with a recently
introduced video transformer backbone, MViT. Our framework achieves similar
results while requiring 20% less computation. We also demonstrate that our
approach is compatible with other transformer architectures.
- Abstract(参考訳): ビデオトランスフォーマーは、主要なビデオ認識ベンチマークで素晴らしい結果を得たが、高い計算コストに苦しんでいる。
本稿では,入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。
具体的には、トークン選択をランキング問題として定式化し、軽量な選択ネットワークを通じて各トークンの重要性を推定し、上位スコアのみを下流評価に使用する。
時間次元では、アクションカテゴリの認識に最も関係のあるフレームを維持しながら、空間次元では、ほとんどのビデオトランスフォーマーにおいて、階層的な方法で使用される空間的コンテキストに影響を与えることなく、特徴マップにおける最も識別的な領域を識別する。
トークン選択の決定は微分不可能であるため、終末トレーニングには摂動最大に基づく微分可能なTop-K演算子を用いる。
我々は最近導入されたビデオトランスバックボーンMViTを用いてKinetics-400の広範な実験を行った。
我々のフレームワークは計算量を20%削減しながら同様の結果を得る。
我々はまた、我々のアプローチが他のトランスフォーマーアーキテクチャと互換性があることを実証する。
関連論文リスト
- Exploring the Design Space of Visual Context Representation in Video MLLMs [102.11582556690388]
ビデオマルチモーダル大言語モデル(MLLM)は、様々な下流タスクでビデオセマンティクスを理解する際、顕著な能力を示した。
ビジュアルコンテキスト表現は、ビデオからフレームを選択し、フレームからトークンを更に選択するスキームを指す。
本稿では,視覚的文脈表現のための設計空間について検討し,より効率的な表現方式を見出すことにより,映像MLLMの性能向上を目指す。
論文 参考訳(メタデータ) (2024-10-17T15:59:52Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文 参考訳(メタデータ) (2023-03-15T20:33:50Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Inductive and Transductive Few-Shot Video Classification via Appearance
and Temporal Alignments [17.673345523918947]
本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。
提案手法は, 両方のデータセットにおいて, 従来手法と類似した, あるいは良好な結果が得られる。
論文 参考訳(メタデータ) (2022-07-21T23:28:52Z) - TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval [42.0544426476143]
Token Shift and Selection Network (TS2-Net) を提案する。
詳細な実験に基づいて、提案したTS2-Netは、主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-16T06:50:27Z) - Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T04:52:27Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。