論文の概要: Temporally Coherent Embeddings for Self-Supervised Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2004.02753v5
- Date: Tue, 17 Nov 2020 04:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 12:59:28.769304
- Title: Temporally Coherent Embeddings for Self-Supervised Video Representation
Learning
- Title(参考訳): 自己監督型映像表現学習のための時間的コヒーレントな埋め込み
- Authors: Joshua Knights, Ben Harwood, Daniel Ward, Anthony Vanderkop, Olivia
Mackenzie-Ross, Peyman Moghadam
- Abstract要約: 本稿では,自己教師型ビデオ表現学習のためのテンポラリコヒーレントな埋め込みについて述べる。
提案手法は,非ラベル付きビデオデータの固有構造を利用して,埋め込み空間における時間的コヒーレンシを明示的に強制する。
単純な2D-CNNバックボーンとRGBストリーム入力のみにより、TCE事前訓練された表現は、UCF101で事前訓練された以前の2D-CNNと3D-CNNよりも優れていた。
- 参考スコア(独自算出の注目度): 2.216657815393579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents TCE: Temporally Coherent Embeddings for self-supervised
video representation learning. The proposed method exploits inherent structure
of unlabeled video data to explicitly enforce temporal coherency in the
embedding space, rather than indirectly learning it through ranking or
predictive proxy tasks. In the same way that high-level visual information in
the world changes smoothly, we believe that nearby frames in learned
representations will benefit from demonstrating similar properties. Using this
assumption, we train our TCE model to encode videos such that adjacent frames
exist close to each other and videos are separated from one another. Using TCE
we learn robust representations from large quantities of unlabeled video data.
We thoroughly analyse and evaluate our self-supervised learned TCE models on a
downstream task of video action recognition using multiple challenging
benchmarks (Kinetics400, UCF101, HMDB51). With a simple but effective 2D-CNN
backbone and only RGB stream inputs, TCE pre-trained representations outperform
all previous selfsupervised 2D-CNN and 3D-CNN pre-trained on UCF101. The code
and pre-trained models for this paper can be downloaded at:
https://github.com/csiro-robotics/TCE
- Abstract(参考訳): 本稿では,自己教師型ビデオ表現学習のためのテンポラリコヒーレントな埋め込みについて述べる。
提案手法では,非ラベル映像データの固有構造を利用して,ランキングや予測プロキシタスクを通じて間接的に学習するのではなく,埋め込み空間における時間的一貫性を明示的に強制する。
世界の高レベルの視覚情報がスムーズに変化するのと同じように、学習された表現の近傍のフレームは、類似した特性を示すことの恩恵を受けると信じている。
この仮定を用いて、tceモデルを訓練し、隣接するフレームが互いに近接し、ビデオが互いに分離するように動画をエンコードします。
TCEを用いて大量の未ラベルビデオデータからロバストな表現を学習する。
我々は,複数の挑戦的ベンチマーク(kinetics400, ucf101, hmdb51)を用いて,映像動作認識の下流課題における自己教師付き学習tceモデルの解析と評価を行った。
単純な2D-CNNバックボーンとRGBストリーム入力のみにより、TCE事前訓練された表現は、UCF101で事前訓練された以前の2D-CNNと3D-CNNよりも優れていた。
この論文のコードと事前訓練されたモデルは、https://github.com/csiro-robotics/TCEでダウンロードできる。
関連論文リスト
- Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。