論文の概要: Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video
- arxiv url: http://arxiv.org/abs/2003.02692v2
- Date: Fri, 21 May 2021 02:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:17:59.502291
- Title: Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video
- Title(参考訳): 可変再生速度による映像の自己教師あり視覚学習
- Authors: Hyeon Cho, Taehoon Kim, Hyung Jin Chang, Wonjun Hwang
- Abstract要約: ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
再生速度に応じて映像の外観の変動を利用して映像のメタ時間的視覚変化を学習する。
また,3次元畳み込みネットワークに適用可能な時間群正規化手法を提案する。
- 参考スコア(独自算出の注目度): 23.478555947694108
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a self-supervised visual learning method by predicting the
variable playback speeds of a video. Without semantic labels, we learn the
spatio-temporal visual representation of the video by leveraging the variations
in the visual appearance according to different playback speeds under the
assumption of temporal coherence. To learn the spatio-temporal visual
variations in the entire video, we have not only predicted a single playback
speed but also generated clips of various playback speeds and directions with
randomized starting points. Hence the visual representation can be successfully
learned from the meta information (playback speeds and directions) of the
video. We also propose a new layer dependable temporal group normalization
method that can be applied to 3D convolutional networks to improve the
representation learning performance where we divide the temporal features into
several groups and normalize each one using the different corresponding
parameters. We validate the effectiveness of our method by fine-tuning it to
the action recognition and video retrieval tasks on UCF-101 and HMDB-51.
- Abstract(参考訳): ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
セマンティックラベルを使わずに、時間的コヒーレンスを前提とした再生速度の異なる視覚的外観の変化を利用して、映像の時空間的表現を学習する。
映像の時空間的変化を学習するために,再生速度を1回だけ予測するだけでなく,様々な再生速度や方向のクリップをランダムなスタート点で生成した。
したがって、映像のメタ情報(再生速度と方向)から視覚的表現をうまく学習することができる。
また、3次元畳み込みネットワークに適用可能な新しい階層型時間群正規化手法を提案し、時間的特徴を複数のグループに分割し、異なるパラメータを用いてそれぞれを正規化する表現学習性能を向上させる。
UCF-101とHMDB-51のアクション認識およびビデオ検索タスクに微調整することで,本手法の有効性を検証する。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Time-Equivariant Contrastive Video Representation Learning [47.50766781135863]
本稿では,非競合ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
実験により,映像検索と行動認識のベンチマークにおいて,時変表現が最先端の結果をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-07T10:45:43Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。
本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文 参考訳(メタデータ) (2020-06-28T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。