論文の概要: Video Representation Learning with Visual Tempo Consistency
- arxiv url: http://arxiv.org/abs/2006.15489v2
- Date: Fri, 18 Dec 2020 03:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:43:26.562477
- Title: Video Representation Learning with Visual Tempo Consistency
- Title(参考訳): 映像テンポ一貫性を用いた映像表現学習
- Authors: Ceyuan Yang, Yinghao Xu, Bo Dai, Bolei Zhou
- Abstract要約: 映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。
本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
- 参考スコア(独自算出の注目度): 105.20094164316836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tempo, which describes how fast an action goes, has shown its
potential in supervised action recognition. In this work, we demonstrate that
visual tempo can also serve as a self-supervision signal for video
representation learning. We propose to maximize the mutual information between
representations of slow and fast videos via hierarchical contrastive learning
(VTHCL). Specifically, by sampling the same instance at slow and fast frame
rates respectively, we can obtain slow and fast video frames which share the
same semantics but contain different visual tempos. Video representations
learned from VTHCL achieve the competitive performances under the
self-supervision evaluation protocol for action recognition on UCF-101 (82.1\%)
and HMDB-51 (49.2\%). Moreover, comprehensive experiments suggest that the
learned representations are generalized well to other downstream tasks
including action detection on AVA and action anticipation on Epic-Kitchen.
Finally, we propose Instance Correspondence Map (ICM) to visualize the shared
semantics captured by contrastive learning.
- Abstract(参考訳): アクションの速度を示すvisual tempoは、教師付きアクション認識の可能性を示している。
本研究では,視覚的テンポが映像表現学習の自己超越信号として機能することを示す。
本稿では,階層的コントラスト学習(VTHCL)によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
具体的には、スローフレームレートと高速フレームレートで同じインスタンスをサンプリングすることで、同じセマンティクスを共有しながら異なる視覚的テンポを含むスローフレームと高速フレームを得ることができる。
VTHCLから学んだビデオ表現は、UCF-101 (82.1\%) と HMDB-51 (49.2\%) の自己超越評価プロトコルの下で、競争性能を達成する。
さらに,AVAでの行動検出やEpic-Kitchenでの行動予測など,学習された表現が他の下流タスクとよく一致していることを示す。
最後に,コントラスト学習によって獲得される共有意味論を可視化するインスタンス対応マップ(icm)を提案する。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video [23.478555947694108]
ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
再生速度に応じて映像の外観の変動を利用して映像のメタ時間的視覚変化を学習する。
また,3次元畳み込みネットワークに適用可能な時間群正規化手法を提案する。
論文 参考訳(メタデータ) (2020-03-05T15:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。