論文の概要: Co-training Transformer with Videos and Images Improves Action
Recognition
- arxiv url: http://arxiv.org/abs/2112.07175v1
- Date: Tue, 14 Dec 2021 05:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:05:28.946548
- Title: Co-training Transformer with Videos and Images Improves Action
Recognition
- Title(参考訳): 映像と映像を併用したコトレーニングトランスフォーマは動作認識を改善する
- Authors: Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai,
Ruoming Pang, Fei Sha
- Abstract要約: アクション認識の学習において、モデルは通常、ImageNetのようなオブジェクト認識イメージで事前訓練され、後にビデオによるターゲットアクション認識で微調整される。
このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。
ビデオトランスフォーマーは、多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受けるかを示す。
- 参考スコア(独自算出の注目度): 49.160505782802886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In learning action recognition, models are typically pre-trained on object
recognition with images, such as ImageNet, and later fine-tuned on target
action recognition with videos. This approach has achieved good empirical
performance especially with recent transformer-based video architectures. While
recently many works aim to design more advanced transformer architectures for
action recognition, less effort has been made on how to train video
transformers. In this work, we explore several training paradigms and present
two findings. First, video transformers benefit from joint training on diverse
video datasets and label spaces (e.g., Kinetics is appearance-focused while
SomethingSomething is motion-focused). Second, by further co-training with
images (as single-frame videos), the video transformers learn even better video
representations. We term this approach as Co-training Videos and Images for
Action Recognition (CoVeR). In particular, when pretrained on ImageNet-21K
based on the TimeSFormer architecture, CoVeR improves Kinetics-400 Top-1
Accuracy by 2.4%, Kinetics-600 by 2.3%, and SomethingSomething-v2 by 2.3%. When
pretrained on larger-scale image datasets following previous state-of-the-art,
CoVeR achieves best results on Kinetics-400 (87.2%), Kinetics-600 (87.9%),
Kinetics-700 (79.8%), SomethingSomething-v2 (70.9%), and Moments-in-Time
(46.1%), with a simple spatio-temporal video transformer.
- Abstract(参考訳): 学習行動認識では、モデルは通常、imagenetなどの画像を用いたオブジェクト認識で事前学習され、後にビデオによるターゲット行動認識で微調整される。
このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。
近年の多くの研究は、アクション認識のためのより高度なトランスフォーマーアーキテクチャを設計することを目指しているが、ビデオトランスフォーマーのトレーニング方法に関する取り組みは少ない。
本研究では,いくつかの学習パラダイムを探求し,二つの知見を提示する。
まず、ビデオトランスフォーマーは多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受ける(例えば、キネティクスは外見中心、Somethingは動き中心)。
第二に、画像(シングルフレームビデオ)とのコラボトレーニングにより、ビデオトランスフォーマーはより優れたビデオ表現を学習する。
このアプローチを,CoVeR(Co-training Videos and Images for Action Recognition)と呼ぶ。
特に、timesformerアーキテクチャに基づいてimagenet-21kで事前トレーニングすると、coverはkinetics-400 top-1の精度を2.4%、kinetics-600を2.3%、something-v2を2.3%向上させる。
以前の最先端に続き、大規模な画像データセットで事前訓練された場合、CoVeRは、単純な時空間ビデオ変換器で、 Kinetics-400 (87.2%)、 Kinetics-600 (87.9%)、 Kinetics-700 (79.8%)、 SomethingSomething-v2 (70.9%)、 Moments-in-Time (46.1%) の最良の結果を得る。
関連論文リスト
- It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - Improved Multiscale Vision Transformers for Classification and Detection [80.64111139883694]
画像と映像の分類とオブジェクト検出のための統合アーキテクチャとして,MViT(Multiscale Vision Transformer)について検討した。
分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。
我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。
論文 参考訳(メタデータ) (2021-12-02T18:59:57Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Video Swin Transformer [41.41741134859565]
我々は、ビデオトランスフォーマーにおける局所性の帰納バイアスを提唱する。
提案したビデオアーキテクチャの局所性は、画像領域用に設計されたSwin Transformerを適用することで実現される。
提案手法は,広い範囲の映像認識ベンチマークにおいて,最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-06-24T17:59:46Z) - Towards Training Stronger Video Vision Transformers for
EPIC-KITCHENS-100 Action Recognition [27.760120524736678]
EPIC-KITCHENS-100行動認識データセット上で,より強力な映像ビジョン変換器をトレーニングするための実験結果を示す。
単一のViViTモデルはEPIC-KITCHENS-100データセットの検証セットで47.4%のパフォーマンスを達成する。
ビデオトランスフォーマーは,動詞-名詞行動予測タスクにおいて,名詞を予測するのに特に優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-09T13:26:02Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。