論文の概要: Video Transformers: A Survey
- arxiv url: http://arxiv.org/abs/2201.05991v1
- Date: Sun, 16 Jan 2022 07:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:52:44.394369
- Title: Video Transformers: A Survey
- Title(参考訳): ビデオトランスフォーマー:調査
- Authors: Javier Selva, Anders S. Johansen, Sergio Escalera, Kamal Nasrollahi,
Thomas B. Moeslund and Albert Clap\'es
- Abstract要約: ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
- 参考スコア(独自算出の注目度): 42.314208650554264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have shown great success modeling long-range interactions.
Nevertheless, they scale quadratically with input length and lack inductive
biases. These limitations can be further exacerbated when dealing with the high
dimensionality of video. Proper modeling of video, which can span from seconds
to hours, requires handling long-range interactions. This makes Transformers a
promising tool for solving video related tasks, but some adaptations are
required. While there are previous works that study the advances of
Transformers for vision tasks, there is none that focus on in-depth analysis of
video-specific designs. In this survey we analyse and summarize the main
contributions and trends for adapting Transformers to model video data.
Specifically, we delve into how videos are embedded and tokenized, finding a
very widspread use of large CNN backbones to reduce dimensionality and a
predominance of patches and frames as tokens. Furthermore, we study how the
Transformer layer has been tweaked to handle longer sequences, generally by
reducing the number of tokens in single attention operation. Also, we analyse
the self-supervised losses used to train Video Transformers, which to date are
mostly constrained to contrastive approaches. Finally, we explore how other
modalities are integrated with video and conduct a performance comparison on
the most common benchmark for Video Transformers (i.e., action classification),
finding them to outperform 3D CNN counterparts with equivalent FLOPs and no
significant parameter increase.
- Abstract(参考訳): トランスフォーマーモデルは長距離相互作用のモデル化に成功している。
それでも、入力長と帰納バイアスの欠如で2次的にスケールする。
これらの制限は、ビデオの高次元性を扱う際にさらに悪化させることができる。
数秒から数時間に及ぶビデオの適切なモデリングには、長距離インタラクションを扱う必要がある。
これにより、トランスフォーマーはビデオ関連のタスクを解決する有望なツールになるが、いくつかの適応が必要となる。
視覚タスクのためのトランスフォーマーの進歩を研究する先行研究は存在するが、ビデオ特有のデザインの詳細な分析に焦点を絞ったものはない。
本研究では,トランスフォーマーをビデオデータに適応させるための主な貢献と動向を分析し,まとめる。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンを使って次元を減らし、パッチやフレームをトークンとして優位に立たせています。
さらに,Transformer層がより長いシーケンスを処理するために,単一注意操作におけるトークン数を減らすことで,どのように調整されているかを検討する。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
最後に、他のモダリティがビデオとどのように統合されているかを検討し、ビデオトランスフォーマーの最も一般的なベンチマーク(アクション分類)で性能比較を行い、等価なFLOPと有意なパラメータ増加を伴わない3D CNNよりも優れていることを示す。
関連論文リスト
- vid-TLDR: Training Free Token merging for Light-weight Video Transformer [14.143681665368856]
ビデオトランスフォーマーは、ビデオフレーム全体にわたる大量のトークンによって引き起こされる計算コストに悩まされる。
軽量ビデオ変換器(vid-TLDR)のための学習自由トークンマージを提案する。
背景トークンをドロップし,オブジェクトスコアをシャープにすることで,サリエンシを意識したトークンマージ戦略を導入する。
論文 参考訳(メタデータ) (2024-03-20T07:15:22Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。