論文の概要: Space-Time Crop & Attend: Improving Cross-modal Video Representation
  Learning
        - arxiv url: http://arxiv.org/abs/2103.10211v1
- Date: Thu, 18 Mar 2021 12:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-03-19 22:33:02.169242
- Title: Space-Time Crop & Attend: Improving Cross-modal Video Representation
  Learning
- Title(参考訳): space-time crop & attend: improve cross-modal video representation learning
- Authors: Mandela Patrick, Yuki M. Asano, Bernie Huang, Ishan Misra, Florian
  Metze, Joao Henriques, Andrea Vedaldi
- Abstract要約: トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 88.71867887257274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract:   The quality of the image representations obtained from self-supervised
learning depends strongly on the type of data augmentations used in the
learning formulation. Recent papers have ported these methods from still images
to videos and found that leveraging both audio and video signals yields strong
gains; however, they did not find that spatial augmentations such as cropping,
which are very important for still images, work as well for videos. In this
paper, we improve these formulations in two ways unique to the spatio-temporal
aspect of videos. First, for space, we show that spatial augmentations such as
cropping do work well for videos too, but that previous implementations, due to
the high processing and memory cost, could not do this at a scale sufficient
for it to work well. To address this issue, we first introduce Feature Crop, a
method to simulate such augmentations much more efficiently directly in feature
space. Second, we show that as opposed to naive average pooling, the use of
transformer-based attention improves performance significantly, and is well
suited for processing feature crops. Combining both of our discoveries into a
new method, Space-time Crop & Attend (STiCA) we achieve state-of-the-art
performance across multiple video-representation learning benchmarks. In
particular, we achieve new state-of-the-art accuracies of 67.0% on HMDB-51 and
93.1% on UCF-101 when pre-training on Kinetics-400.
- Abstract(参考訳): 自己教師付き学習から得られた画像表現の品質は、学習定式化に使用されるデータ拡張の種類に大きく依存する。
近年の研究では、静止画から映像へこれらの手法を移植し、音声信号と映像信号の両方を活用することで大きな効果が得られたが、静止画にとって非常に重要な収穫などの空間的な拡張がビデオでも有効であることは見つからなかった。
本稿では,ビデオの時空間的側面に特有の2つの方法でこれらの定式化を改善する。
まず,空間的にも,収穫などの空間的拡張がビデオにも有効であることを示すが,従来の実装では,高い処理量とメモリコストのため,十分に動作するスケールでは実現できなかった。
この問題に対処するため,我々はまず,機能空間においてより効率的に機能拡張をシミュレートする手法である feature crop を導入する。
第2に, 単純平均プールとは対照的に, トランスフォーマーによる注意力の利用により性能が向上し, 特徴作物の処理に適していることを示す。
2つの発見を新しい方法、space-time crop & attend(stica)に組み合わせることで、複数のビデオ表現学習ベンチマークで最先端のパフォーマンスを実現します。
特に, hmdb-51 の67.0%, ucf-101 の93.1%という新たな精度を達成する。
 
      
        関連論文リスト
        - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
  Representations [79.87044240860466]
 本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
 論文  参考訳(メタデータ) (2023-08-22T21:28:58Z)
- Extending Temporal Data Augmentation for Video Action Recognition [1.3807859854345832]
 本研究では,空間領域と時間領域の関係を強化する新しい手法を提案する。
その結果,UCF-101データセットとHMDB-51データセットのTop-1およびTop-5設定では,ビデオアクション認識結果がそれぞれより優れていた。
 論文  参考訳(メタデータ) (2022-11-09T13:49:38Z)
- Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
 対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
 論文  参考訳(メタデータ) (2022-08-04T17:59:54Z)
- Learn2Augment: Learning to Composite Videos for Data Augmentation in
  Action Recognition [47.470845728457135]
 我々は、アクション認識のための優れたビデオを作るものを学び、拡張のための高品質なサンプルのみを選択する。
実際に合成することなく、ビデオのどのペアを拡大するかを学ぶ。
半教師付き環境では最大8.6%の改善が見られる。
 論文  参考訳(メタデータ) (2022-06-09T23:04:52Z)
- BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
 本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
 論文  参考訳(メタデータ) (2021-12-02T18:59:59Z)
- RSPNet: Relative Speed Perception for Unsupervised Video Representation
  Learning [100.76672109782815]
 本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
 論文  参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。