論文の概要: Dual Contrastive Learning for Spatio-temporal Representation
- arxiv url: http://arxiv.org/abs/2207.05340v1
- Date: Tue, 12 Jul 2022 06:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:06:45.142456
- Title: Dual Contrastive Learning for Spatio-temporal Representation
- Title(参考訳): 時空間表現のためのデュアルコントラスト学習
- Authors: Shuangrui Ding, Rui Qian, Hongkai Xiong
- Abstract要約: コントラスト学習は自己指導型表現学習において有望な可能性を示している。
本稿では,新しい二重コントラストの定式化について述べる。
有効テキスト時間表現を学習し、UCF、H-51、Diving RGBデータセット上での最先端または同等のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 32.35765390819449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has shown promising potential in self-supervised
spatio-temporal representation learning. Most works naively sample different
clips to construct positive and negative pairs. However, we observe that this
formulation inclines the model towards the background scene bias. The
underlying reasons are twofold. First, the scene difference is usually more
noticeable and easier to discriminate than the motion difference. Second, the
clips sampled from the same video often share similar backgrounds but have
distinct motions. Simply regarding them as positive pairs will draw the model
to the static background rather than the motion pattern. To tackle this
challenge, this paper presents a novel dual contrastive formulation.
Concretely, we decouple the input RGB video sequence into two complementary
modes, static scene and dynamic motion. Then, the original RGB features are
pulled closer to the static features and the aligned dynamic features,
respectively. In this way, the static scene and the dynamic motion are
simultaneously encoded into the compact RGB representation. We further conduct
the feature space decoupling via activation maps to distill static- and
dynamic-related features. We term our method as \textbf{D}ual
\textbf{C}ontrastive \textbf{L}earning for spatio-temporal
\textbf{R}epresentation (DCLR). Extensive experiments demonstrate that DCLR
learns effective spatio-temporal representations and obtains state-of-the-art
or comparable performance on UCF-101, HMDB-51, and Diving-48 datasets.
- Abstract(参考訳): コントラスト学習は、自己監督型時空間表現学習において有望な可能性を示している。
ほとんどの研究は、正対と負対を構成するために異なるクリップを鼻でサンプリングする。
しかし,この定式化は背景背景バイアスに対してモデルを傾斜させる。
根本的な理由は2つある。
第一に、シーンの差は通常、動きの差よりも目立ちやすく、判別が容易である。
第2に、同じビデオからサンプリングされたクリップは、よく似た背景を共有するが、異なる動きを持つ。
単に正のペアと見なせば、動きのパターンではなく、静的な背景にモデルを描画する。
そこで本稿では,この課題に取り組むために,新しい双対コントラスト公式を提案する。
具体的には、入力されたRGBビデオシーケンスを静的シーンと動的モーションの2つの相補モードに分離する。
そして、元のRGB機能は、それぞれ静的機能とアライメントされた動的機能に近づきます。
このようにして、静的シーンと動的動きを同時にコンパクトなrgb表現に符号化する。
さらに、アクティベーションマップを介して特徴空間デカップリングを行い、静的および動的特徴を蒸留する。
本手法は, 時空間的表象 (DCLR) に対して, 提案手法を textbf{D}ual \textbf{C}ontrastive \textbf{L}earning と呼ぶ。
大規模な実験により、DCLRは効果的な時空間表現を学び、UCF-101、HMDB-51、Diving-48データセットの最先端または同等のパフォーマンスを得る。
関連論文リスト
- Neural Differential Appearance Equations [14.053608981988793]
本研究では,動的外観テクスチャを時変時空間で再現する手法を提案する。
我々は、ニューラルネットワークの常微分方程式を用いて、ターゲットの例から外見の根底となるダイナミクスを学習する。
実験の結果,本手法は現実的かつ一貫性のある結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-09-23T11:29:19Z) - Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation [32.11635464720755]
本稿では,映像レベルの参照表現理解を静的および運動知覚に分離することを提案する。
我々は、視覚的に類似した物体の動きを区別するために、対照的な学習を採用する。
これらのコントリビューションは、5つのデータセットにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-04-04T17:58:21Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - DyTed: Disentangled Representation Learning for Discrete-time Dynamic
Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。
本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文 参考訳(メタデータ) (2022-10-19T14:34:12Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Motion-aware Self-supervised Video Representation Learning via
Foreground-background Merging [19.311818681787845]
我々は、選択したビデオの前景領域を背景に構成するフォアグラウンド・バックグラウンド・マージング(FAME)を提案する。
FAMEは、様々なバックボーンを用いて、異なる下流タスクのパフォーマンスを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-30T13:45:26Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。