論文の概要: Motion Sensitive Contrastive Learning for Self-supervised Video
Representation
- arxiv url: http://arxiv.org/abs/2208.06105v1
- Date: Fri, 12 Aug 2022 04:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-08-15 13:23:16.420352
- Title: Motion Sensitive Contrastive Learning for Self-supervised Video
Representation
- Title(参考訳): 自己監督型映像表現のための運動知覚的コントラスト学習
- Authors: Jingcheng Ni, Nan Zhou, Jie Qin, Qian Wu, Junqi Liu, Boxun Li, Di
Huang
- Abstract要約: 動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
- 参考スコア(独自算出の注目度): 34.854431881562576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has shown great potential in video representation
learning. However, existing approaches fail to sufficiently exploit short-term
motion dynamics, which are crucial to various down-stream video understanding
tasks. In this paper, we propose Motion Sensitive Contrastive Learning (MSCL)
that injects the motion information captured by optical flows into RGB frames
to strengthen feature learning. To achieve this, in addition to clip-level
global contrastive learning, we develop Local Motion Contrastive Learning
(LMCL) with frame-level contrastive objectives across the two modalities.
Moreover, we introduce Flow Rotation Augmentation (FRA) to generate extra
motion-shuffled negative samples and Motion Differential Sampling (MDS) to
accurately screen training samples. Extensive experiments on standard
benchmarks validate the effectiveness of the proposed method. With the
commonly-used 3D ResNet-18 as the backbone, we achieve the top-1 accuracies of
91.5\% on UCF101 and 50.3\% on Something-Something v2 for video classification,
and a 65.6\% Top-1 Recall on UCF101 for video retrieval, notably improving the
state-of-the-art.
- Abstract(参考訳): コントラスト学習はビデオ表現学習において大きな可能性を示している。
しかし、既存のアプローチでは、様々なダウンストリームビデオ理解タスクにおいて重要な短期動作力学を十分に活用できない。
本稿では,RGBフレームに光学的流れによって捕捉された動き情報を注入して特徴学習を強化する動き感性コントラスト学習(MSCL)を提案する。
これを実現するために,クリップレベルのグローバルコントラスト学習に加えて,フレームレベルのコントラスト目標を持つ局所運動コントラスト学習 (lmcl) を開発した。
さらに,フロー回転拡大法 (fra) を導入し, 余分な動きをシャッフルした負のサンプルを生成し, 動き差動サンプリング (mds) を行い, 正確なスクリーントレーニングを行った。
標準ベンチマークに関する広範囲な実験により,提案手法の有効性が検証された。
一般的に使用されている3D ResNet-18をバックボーンとして、UCF101で91.5\%、ビデオ分類でSomething v2で50.3\%、ビデオ検索で65.6\%のTop-1リコールを達成した。
関連論文リスト
- Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文 参考訳(メタデータ) (2023-08-09T09:33:45Z) - MoQuad: Motion-focused Quadruple Construction for Video Contrastive
Learning [10.41936704731324]
本稿では,ビデオコントラスト学習における動作特徴の学習を促進するための,シンプルで効果的なサンプル構築戦略を提案する。
提案手法はMoQuad (Mo- Focus Quadruple Construction) と呼ばれ, 正試料と負試料の両方の外観と動きを巧みに妨害することにより, インスタンス識別を増強する。
単にMoQuadをSimCLRに適用することで、ダウンストリームタスクにおいて、最先端のアートよりも優れたパフォーマンスを達成できることが、広範な実験によって示されている。
論文 参考訳(メタデータ) (2022-12-21T09:26:40Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - Self-supervised Video Representation Learning with Cross-Stream
Prototypical Contrasting [2.2530496464901106]
ビデオ・クロスストリーム・プロトタイプ・コントラスティング」はRGBと光フロービューの両方から一貫したプロトタイプの割り当てを予測する新しい手法である。
最寄りの映像検索と行動認識における最先端の検索結果を得る。
論文 参考訳(メタデータ) (2021-06-18T13:57:51Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。