論文の概要: Back to the Future: Cycle Encoding Prediction for Self-supervised
Contrastive Video Representation Learning
- arxiv url: http://arxiv.org/abs/2010.07217v5
- Date: Sun, 24 Oct 2021 07:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:46:45.911410
- Title: Back to the Future: Cycle Encoding Prediction for Self-supervised
Contrastive Video Representation Learning
- Title(参考訳): 未来へ:自己監督型コントラスト映像表現学習のためのサイクル符号化予測
- Authors: Xinyu Yang, Majid Mirmehdi, Tilo Burghardt
- Abstract要約: サイクル予測は、未ラベル映像の高レベルな構造を表す。
自己超越信号として、CEPはビデオストリームの双方向時間コヒーレンスを利用する。
標準データセット UCF101 と HMDB51 の精度は大幅に向上した。
- 参考スコア(独自算出の注目度): 14.212559301655997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we show that learning video feature spaces in which temporal
cycles are maximally predictable benefits action classification. In particular,
we propose a novel learning approach termed Cycle Encoding Prediction (CEP)
that is able to effectively represent high-level spatio-temporal structure of
unlabelled video content. CEP builds a latent space wherein the concept of
closed forward-backward as well as backward-forward temporal loops is
approximately preserved. As a self-supervision signal, CEP leverages the
bi-directional temporal coherence of the video stream and applies loss
functions that encourage both temporal cycle closure as well as contrastive
feature separation. Architecturally, the underpinning network structure
utilises a single feature encoder for all video snippets, adding two predictive
modules that learn temporal forward and backward transitions. We apply our
framework for pretext training of networks for action recognition tasks. We
report significantly improved results for the standard datasets UCF101 and
HMDB51. Detailed ablation studies support the effectiveness of the proposed
components. We publish source code for the CEP components in full with this
paper.
- Abstract(参考訳): 本稿では,時間周期を最大に予測可能な行動分類を行うビデオ特徴空間の学習について述べる。
特に,ビデオコンテンツの高レベル時空間構造を効果的に表現できるCEP(Cycle Encoding Prediction)という新しい学習手法を提案する。
CEP は後向きの閉空間と後向きの時間ループを概ね保存する潜在空間を構築している。
自己超越信号として、CEPはビデオストリームの双方向の時間的コヒーレンスを活用し、時間的サイクルの閉鎖と対照的な特徴分離を促進する損失関数を適用する。
アーキテクチャ上、基盤となるネットワーク構造は、すべてのビデオスニペットに1つの機能エンコーダを使用し、時間的前方および後方遷移を学習する2つの予測モジュールを追加する。
本フレームワークは,行動認識タスクのためのネットワークのプレテキストトレーニングに適用する。
標準データセット UCF101 と HMDB51 の精度は大幅に向上した。
詳細なアブレーション研究は,提案する成分の有効性を支持する。
本稿では,CEPコンポーネントのソースコードを全文で公開する。
関連論文リスト
- Temporal Context Consistency Above All: Enhancing Long-Term Anticipation by Learning and Enforcing Temporal Constraints [4.880243880711163]
本稿では,初期未トリミング映像区間の観察から,動画中の動作ラベルとその持続時間を予測する手法を提案する。
並列デコーディングを備えたエンコーダ・デコーダアーキテクチャ上に構築し,2つの重要なコントリビューションを行う。
LTA,EpicKitchen-55,EGTEA+,50Salads,Breakfastの4つのベンチマークデータセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-12-27T03:29:10Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Pair-wise Layer Attention with Spatial Masking for Video Prediction [46.17429511620538]
Pair-wise Layer Attention (PLA) モジュールを開発した。
また,Pair-wise Layer Attention with Spatial Masking (SM-SM) フレームワークをトランスレータ予測のために提案する。
論文 参考訳(メタデータ) (2023-11-19T10:29:05Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation [20.182928938110923]
時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
論文 参考訳(メタデータ) (2022-12-20T14:53:46Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Temporal Complementary Learning for Video Person Re-Identification [110.43147302200101]
本稿では,連続する映像フレームの相補的特徴を抽出し,映像人物の再同定を行う時間補完学習ネットワークを提案する。
サリエンシ消去操作により、特定の学習者は、前のフレームによって活性化された部分を消去することにより、新規かつ補完的な部分をマイニングする。
テンポラル・サリエンシ・ブースティング(TSB)モジュールは、ビデオフレーム間のサリエント情報を伝播してサリエント機能を強化するように設計されている。
論文 参考訳(メタデータ) (2020-07-18T07:59:01Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。