論文の概要: Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning
- arxiv url: http://arxiv.org/abs/2001.00294v1
- Date: Thu, 2 Jan 2020 02:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:11:57.370260
- Title: Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning
- Title(参考訳): 自己教師付き時空間学習のためのビデオクローゼ法
- Authors: Dezhao Luo, Chang Liu, Yu Zhou, Dongbao Yang, Can Ma, Qixiang Ye,
Weiping Wang
- Abstract要約: ビデオ・クローゼ・プロシージャ(VCP)は、豊かな空間的時間的表現を学習するための自己指導手法である。
プロキシタスクとして、セルフ教師付き表現をビデオクリップ操作(オプション)に変換する。
対象タスクとして、学習した表現モデルを均一かつ解釈可能な方法で評価することができる。
- 参考スコア(独自算出の注目度): 47.61996332135089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel self-supervised method, referred to as Video Cloze
Procedure (VCP), to learn rich spatial-temporal representations. VCP first
generates "blanks" by withholding video clips and then creates "options" by
applying spatio-temporal operations on the withheld clips. Finally, it fills
the blanks with "options" and learns representations by predicting the
categories of operations applied on the clips. VCP can act as either a proxy
task or a target task in self-supervised learning. As a proxy task, it converts
rich self-supervised representations into video clip operations (options),
which enhances the flexibility and reduces the complexity of representation
learning. As a target task, it can assess learned representation models in a
uniform and interpretable manner. With VCP, we train spatial-temporal
representation models (3D-CNNs) and apply such models on action recognition and
video retrieval tasks. Experiments on commonly used benchmarks show that the
trained models outperform the state-of-the-art self-supervised models with
significant margins.
- Abstract(参考訳): 本稿では,ビデオ・クローゼ・プロシージャ(VCP)と呼ばれる新しい自己教師型手法を提案する。
vcpはまずビデオクリップを保持して「ブランク」を生成し、その後、持たないクリップに時空間操作を適用することで「オプション」を作成する。
最後に、空白を"オプション"で満たし、クリップに適用される操作のカテゴリを予測して表現を学習する。
VCPは、自己教師型学習において、プロキシタスクまたはターゲットタスクとして機能する。
プロキシタスクとして、リッチな自己教師型表現をビデオクリップ操作(オプション)に変換し、柔軟性を高め、表現学習の複雑さを低減する。
対象タスクとして、学習した表現モデルを均一かつ解釈可能な方法で評価することができる。
VCPでは,時空間表現モデル(3D-CNN)を訓練し,行動認識や映像検索に応用する。
一般的なベンチマーク実験では、トレーニングされたモデルは最先端の自己教師モデルよりも大きなマージンを持つことが示されている。
関連論文リスト
- Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Video Playback Rate Perception for Self-supervisedSpatio-Temporal
Representation Learning [45.09719585401661]
学習時間表現のための自己教師型手法として,ビデオ再生率知覚(PRP)を提案する。
PRPは拡張サンプリング戦略に根ざし、表現学習のためのビデオ再生率に関する信号を生成する。
PRPは、アクション認識やビデオ検索を含む典型的なビデオタスクに適用される。
論文 参考訳(メタデータ) (2020-06-20T02:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。