論文の概要: Hierarchical Contrastive Motion Learning for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2007.10321v3
- Date: Mon, 17 Jan 2022 09:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:16:33.352377
- Title: Hierarchical Contrastive Motion Learning for Video Action Recognition
- Title(参考訳): ビデオアクション認識のための階層型コントラストモーション学習
- Authors: Xitong Yang, Xiaodong Yang, Sifei Liu, Deqing Sun, Larry Davis, Jan
Kautz
- Abstract要約: 本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
- 参考スコア(独自算出の注目度): 100.9807616796383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One central question for video action recognition is how to model motion. In
this paper, we present hierarchical contrastive motion learning, a new
self-supervised learning framework to extract effective motion representations
from raw video frames. Our approach progressively learns a hierarchy of motion
features that correspond to different abstraction levels in a network. This
hierarchical design bridges the semantic gap between low-level motion cues and
high-level recognition tasks, and promotes the fusion of appearance and motion
information at multiple levels. At each level, an explicit motion
self-supervision is provided via contrastive learning to enforce the motion
features at the current level to predict the future ones at the previous level.
Thus, the motion features at higher levels are trained to gradually capture
semantic dynamics and evolve more discriminative for action recognition. Our
motion learning module is lightweight and flexible to be embedded into various
backbone networks. Extensive experiments on four benchmarks show that the
proposed approach consistently achieves superior results.
- Abstract(参考訳): ビデオアクション認識の中心的な問題は、動きのモデル化である。
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
我々のアプローチは、ネットワーク内の異なる抽象レベルに対応する動きの特徴の階層を段階的に学習する。
この階層的設計は、低レベルのモーションキューと高レベルの認識タスクのセマンティックギャップを橋渡しし、複数のレベルでの外観と動き情報の融合を促進する。
各レベルでは、コントラスト学習を通じて明示的な動き自己スーパービジョンが提供され、現在のレベルでの動作特徴を強制し、前のレベルでの将来の動きを予測する。
したがって、より高いレベルの動作特徴は、徐々に意味力学を捉え、より識別的なアクション認識へと進化するように訓練される。
私たちのモーションラーニングモジュールは軽量で、様々なバックボーンネットワークに組み込むのに柔軟です。
4つのベンチマークにおいて,提案手法が常に優れた結果が得られることを示す。
関連論文リスト
- Continual Learning of Conjugated Visual Representations through Higher-order Motion Flows [21.17248975377718]
ニューラルネットワークによる学習は、データの非i.d.な性質のため、いくつかの課題を提示している。
また、情報の流れに整合した表現を開発する新しい機会を提供する。
本稿では,複数動作による制約を受ける画素ワイド特徴の教師なし連続学習の事例について検討する。
論文 参考訳(メタデータ) (2024-09-16T19:08:32Z) - Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。
最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。
ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-05T07:37:55Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Semantics-aware Motion Retargeting with Vision-Language Models [19.53696208117539]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
我々は3次元動作のレンダリングに微分可能モジュールを使用し、視覚言語モデルに入力し、抽出したセマンティック埋め込みを整合させることにより、高レベルなモーションセマンティクスを動作プロセスに組み込む。
微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため、スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - Contrast-reconstruction Representation Learning for Self-supervised
Skeleton-based Action Recognition [18.667198945509114]
コントラスト再構成表現学習ネットワーク(CRRL)を提案する。
姿勢と運動のダイナミクスを同時に捉え、教師なし骨格に基づく行動認識を行う。
NTU RGB+D 60, NTU RGB+D 120, CMU mocap, NW-UCLA といったいくつかのベンチマークの実験結果から、提案したCRRL法が実現可能であることが示された。
論文 参考訳(メタデータ) (2021-11-22T08:45:34Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Enhancing Self-supervised Video Representation Learning via Multi-level
Feature Optimization [30.670109727802494]
本稿では,学習ビデオ表現の一般化と時間的モデリング能力を改善するための多段階特徴最適化フレームワークを提案する。
実験により,グラフ制約と時間的モデリングによるマルチレベル特徴最適化は,映像理解における表現能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-08-04T17:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。