論文の概要: Video Playback Rate Perception for Self-supervisedSpatio-Temporal
Representation Learning
- arxiv url: http://arxiv.org/abs/2006.11476v1
- Date: Sat, 20 Jun 2020 02:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:45:26.480448
- Title: Video Playback Rate Perception for Self-supervisedSpatio-Temporal
Representation Learning
- Title(参考訳): 自己監督型時空間表現学習のためのビデオ再生率知覚
- Authors: Yuan Yao, Chang Liu, Dezhao Luo, Yu Zhou, Qixiang Ye
- Abstract要約: 学習時間表現のための自己教師型手法として,ビデオ再生率知覚(PRP)を提案する。
PRPは拡張サンプリング戦略に根ざし、表現学習のためのビデオ再生率に関する信号を生成する。
PRPは、アクション認識やビデオ検索を含む典型的なビデオタスクに適用される。
- 参考スコア(独自算出の注目度): 45.09719585401661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In self-supervised spatio-temporal representation learning, the temporal
resolution and long-short term characteristics are not yet fully explored,
which limits representation capabilities of learned models. In this paper, we
propose a novel self-supervised method, referred to as video Playback Rate
Perception (PRP), to learn spatio-temporal representation in a
simple-yet-effective way. PRP roots in a dilated sampling strategy, which
produces self-supervision signals about video playback rates for representation
model learning. PRP is implemented with a feature encoder, a classification
module, and a reconstructing decoder, to achieve spatio-temporal semantic
retention in a collaborative discrimination-generation manner. The
discriminative perception model follows a feature encoder to prefer perceiving
low temporal resolution and long-term representation by classifying
fast-forward rates. The generative perception model acts as a feature decoder
to focus on comprehending high temporal resolution and short-term
representation by introducing a motion-attention mechanism. PRP is applied on
typical video target tasks including action recognition and video retrieval.
Experiments show that PRP outperforms state-of-the-art self-supervised models
with significant margins. Code is available at github.com/yuanyao366/PRP
- Abstract(参考訳): 自己教師あり時空間表現学習では,学習モデルの表現能力を制限する時間分解能と長期的特性はまだ十分に検討されていない。
本稿では,ビデオ再生率知覚(PRP)と呼ばれる新しい自己指導手法を提案する。
PRPのルーツは拡張サンプリング戦略であり、表現モデル学習のためのビデオ再生率に関する自己超越信号を生成する。
PRPは、特徴エンコーダ、分類モジュール、再構成デコーダで実装され、協調的な識別生成方式で時空間のセマンティック保持を実現する。
識別知覚モデルは、高速フォワードレートを分類することにより、低時間分解能と長期表現を優先する特徴エンコーダに従う。
生成知覚モデルは特徴デコーダとして機能し、モーションアテンション機構を導入することにより、高時間分解能と短期表現の理解に集中する。
PRPは、アクション認識やビデオ検索を含む典型的なビデオターゲットタスクに適用される。
実験により、PRPは最先端の自己教師型モデルよりも優れたマージンを持つことが示された。
コードはgithub.com/yuanyao366/prpで入手できる
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning [47.61996332135089]
ビデオ・クローゼ・プロシージャ(VCP)は、豊かな空間的時間的表現を学習するための自己指導手法である。
プロキシタスクとして、セルフ教師付き表現をビデオクリップ操作(オプション)に変換する。
対象タスクとして、学習した表現モデルを均一かつ解釈可能な方法で評価することができる。
論文 参考訳(メタデータ) (2020-01-02T02:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。