論文の概要: Hierarchical Contrastive Motion Learning for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2007.10321v3
- Date: Mon, 17 Jan 2022 09:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:16:33.352377
- Title: Hierarchical Contrastive Motion Learning for Video Action Recognition
- Title(参考訳): ビデオアクション認識のための階層型コントラストモーション学習
- Authors: Xitong Yang, Xiaodong Yang, Sifei Liu, Deqing Sun, Larry Davis, Jan
Kautz
- Abstract要約: 本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
- 参考スコア(独自算出の注目度): 100.9807616796383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One central question for video action recognition is how to model motion. In
this paper, we present hierarchical contrastive motion learning, a new
self-supervised learning framework to extract effective motion representations
from raw video frames. Our approach progressively learns a hierarchy of motion
features that correspond to different abstraction levels in a network. This
hierarchical design bridges the semantic gap between low-level motion cues and
high-level recognition tasks, and promotes the fusion of appearance and motion
information at multiple levels. At each level, an explicit motion
self-supervision is provided via contrastive learning to enforce the motion
features at the current level to predict the future ones at the previous level.
Thus, the motion features at higher levels are trained to gradually capture
semantic dynamics and evolve more discriminative for action recognition. Our
motion learning module is lightweight and flexible to be embedded into various
backbone networks. Extensive experiments on four benchmarks show that the
proposed approach consistently achieves superior results.
- Abstract(参考訳): ビデオアクション認識の中心的な問題は、動きのモデル化である。
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
我々のアプローチは、ネットワーク内の異なる抽象レベルに対応する動きの特徴の階層を段階的に学習する。
この階層的設計は、低レベルのモーションキューと高レベルの認識タスクのセマンティックギャップを橋渡しし、複数のレベルでの外観と動き情報の融合を促進する。
各レベルでは、コントラスト学習を通じて明示的な動き自己スーパービジョンが提供され、現在のレベルでの動作特徴を強制し、前のレベルでの将来の動きを予測する。
したがって、より高いレベルの動作特徴は、徐々に意味力学を捉え、より識別的なアクション認識へと進化するように訓練される。
私たちのモーションラーニングモジュールは軽量で、様々なバックボーンネットワークに組み込むのに柔軟です。
4つのベンチマークにおいて,提案手法が常に優れた結果が得られることを示す。
関連論文リスト
- Semantics-aware Motion Retargeting with Vision-Language Models [20.271666786433748]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
高レベルな動作セマンティクスは、視覚言語モデルに描画された画像を与え、抽出したセマンティクスの埋め込みを調整することで、動作プロセスに組み込む。
実験結果から,提案手法が高精度な動作セマンティクスを維持しつつ,高品質な動作結果の生成に有効であることが示された。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - Contrast-reconstruction Representation Learning for Self-supervised
Skeleton-based Action Recognition [18.667198945509114]
コントラスト再構成表現学習ネットワーク(CRRL)を提案する。
姿勢と運動のダイナミクスを同時に捉え、教師なし骨格に基づく行動認識を行う。
NTU RGB+D 60, NTU RGB+D 120, CMU mocap, NW-UCLA といったいくつかのベンチマークの実験結果から、提案したCRRL法が実現可能であることが示された。
論文 参考訳(メタデータ) (2021-11-22T08:45:34Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Enhancing Self-supervised Video Representation Learning via Multi-level
Feature Optimization [30.670109727802494]
本稿では,学習ビデオ表現の一般化と時間的モデリング能力を改善するための多段階特徴最適化フレームワークを提案する。
実験により,グラフ制約と時間的モデリングによるマルチレベル特徴最適化は,映像理解における表現能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-08-04T17:16:18Z) - Video Representation Learning by Recognizing Temporal Transformations [37.59322456034611]
本研究では,モーションダイナミクスの変化に応答するビデオの表現を学習するための,新たな自己教師型学習手法を提案する。
人間のアノテーションを使わずに正確な動きの学習を促進するために、ニューラルネットワークを訓練し、その時間的に変換されたバージョンから映像シーケンスを識別する。
本実験により,提案手法を用いてトレーニングしたネットワークは,動作認識のための転送性能の向上を図った。
論文 参考訳(メタデータ) (2020-07-21T11:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。