論文の概要: Self-Supervised Video Representation Learning with Motion-Contrastive
Perception
- arxiv url: http://arxiv.org/abs/2204.04607v1
- Date: Sun, 10 Apr 2022 05:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 14:37:12.259181
- Title: Self-Supervised Video Representation Learning with Motion-Contrastive
Perception
- Title(参考訳): モーションコントラスト知覚を用いた自己教師付き映像表現学習
- Authors: Jinyu Liu, Ying Cheng, Yuejie Zhang, Rui-Wei Zhao, Rui Feng
- Abstract要約: モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
- 参考スコア(独自算出の注目度): 13.860736711747284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-only self-supervised learning has achieved significant improvement in
video representation learning. Existing related methods encourage models to
learn video representations by utilizing contrastive learning or designing
specific pretext tasks. However, some models are likely to focus on the
background, which is unimportant for learning video representations. To
alleviate this problem, we propose a new view called long-range residual frame
to obtain more motion-specific information. Based on this, we propose the
Motion-Contrastive Perception Network (MCPNet), which consists of two branches,
namely, Motion Information Perception (MIP) and Contrastive Instance Perception
(CIP), to learn generic video representations by focusing on the changing areas
in videos. Specifically, the MIP branch aims to learn fine-grained motion
features, and the CIP branch performs contrastive learning to learn overall
semantics information for each instance. Experiments on two benchmark datasets
UCF-101 and HMDB-51 show that our method outperforms current state-of-the-art
visual-only self-supervised approaches.
- Abstract(参考訳): 視覚のみの自己教師型学習は,映像表現学習において大きな進歩を遂げた。
既存の関連手法は、コントラスト学習を利用したり、特定のプリテキストタスクを設計することで、モデルにビデオ表現の学習を促す。
しかし、一部のモデルは背景に焦点を当てる可能性が高いため、ビデオ表現の学習には重要ではない。
この問題を軽減するために,より詳細な動特性情報を得るために,長距離残余フレームという新しい視点を提案する。
そこで本研究では,映像中の変化領域に着目して汎用的な映像表現を学習するために,運動情報知覚 (mip) とコントラストインスタンス知覚 (cip) という2つの分枝からなるモーションコントラスト知覚ネットワーク (mcpnet) を提案する。
具体的には、MIPブランチは、きめ細かい動きの特徴を学習することを目的としており、CIPブランチは、各インスタンスの全体的な意味情報を学ぶために対照的な学習を行う。
2つのベンチマークデータセット UCF-101 と HMDB-51 を用いた実験により,本手法が現在最先端の視覚のみの自己監督手法より優れていることが示された。
関連論文リスト
- MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - MoDist: Motion Distillation for Self-supervised Video Representation
Learning [27.05772951598066]
MoDistは、モーション情報を自己教師付きビデオ表現に蒸留する新しい方法である。
我々は,MoDistがフォアグラウンドの動作領域をより重視し,下流のタスクをより一般化することを示す。
論文 参考訳(メタデータ) (2021-06-17T17:57:11Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Video Representation Learning by Recognizing Temporal Transformations [37.59322456034611]
本研究では,モーションダイナミクスの変化に応答するビデオの表現を学習するための,新たな自己教師型学習手法を提案する。
人間のアノテーションを使わずに正確な動きの学習を促進するために、ニューラルネットワークを訓練し、その時間的に変換されたバージョンから映像シーケンスを識別する。
本実験により,提案手法を用いてトレーニングしたネットワークは,動作認識のための転送性能の向上を図った。
論文 参考訳(メタデータ) (2020-07-21T11:43:01Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。