論文の概要: Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning
- arxiv url: http://arxiv.org/abs/2308.03975v1
- Date: Tue, 8 Aug 2023 01:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:35:23.240107
- Title: Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning
- Title(参考訳): 仮面運動モデリングによるプロンプトコントラスト:3次元動作表現学習に向けて
- Authors: Jiahang Zhang, Lilang Lin, Jiaying Liu
- Abstract要約: 本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
- 参考スコア(独自算出の注目度): 33.68311764817763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has proved effective for skeleton-based human action
understanding, which is an important yet challenging topic. Previous works
mainly rely on contrastive learning or masked motion modeling paradigm to model
the skeleton relations. However, the sequence-level and joint-level
representation learning cannot be effectively and simultaneously handled by
these methods. As a result, the learned representations fail to generalize to
different downstream tasks. Moreover, combining these two paradigms in a naive
manner leaves the synergy between them untapped and can lead to interference in
training. To address these problems, we propose Prompted Contrast with Masked
Motion Modeling, PCM$^{\rm 3}$, for versatile 3D action representation
learning. Our method integrates the contrastive learning and masked prediction
tasks in a mutually beneficial manner, which substantially boosts the
generalization capacity for various downstream tasks. Specifically, masked
prediction provides novel training views for contrastive learning, which in
turn guides the masked prediction training with high-level semantic
information. Moreover, we propose a dual-prompted multi-task pretraining
strategy, which further improves model representations by reducing the
interference caused by learning the two different pretext tasks. Extensive
experiments on five downstream tasks under three large-scale datasets are
conducted, demonstrating the superior generalization capacity of PCM$^{\rm 3}$
compared to the state-of-the-art works. Our project is publicly available at:
https://jhang2020.github.io/Projects/PCM3/PCM3.html .
- Abstract(参考訳): 自己教師型学習は骨格に基づく人間の行動理解に有効であることが証明されている。
先行研究は主に、骨格関係をモデル化するために、対比学習やマスキングモーションモデリングパラダイムに依存している。
しかし,これらの手法では,シーケンスレベルと共同レベルの表現学習を効果的かつ同時に行うことはできない。
その結果、学習した表現は、異なる下流タスクに一般化できない。
さらに、これらの2つのパラダイムをナイーブな方法で組み合わせることで、相乗効果が失われ、トレーニングの干渉につながる可能性がある。
これらの問題に対処するために、多目的な3次元動作表現学習のためのMasked Motion Modeling, PCM$^{\rm 3}$を用いたPrompted Contrastを提案する。
本手法は,コントラスト学習とマスキング予測タスクを相互に有益に統合することで,下流課題の一般化能力を大幅に向上させる。
具体的には、マスク付き予測は、コントラスト学習のための新しいトレーニングビューを提供し、ハイレベルなセマンティック情報でマスク付き予測トレーニングをガイドする。
さらに,2つの異なるプリテキストタスクを学習することによって生じる干渉を低減し,モデル表現をさらに改善するマルチタスクプリトレーニング戦略を提案する。
3つの大規模データセットに基づく5つの下流タスクの大規模な実験を行い、PCM$^{\rm 3}$が最先端の作業と比較して優れた一般化能力を示す。
私たちのプロジェクトは、https://jhang2020.github.io/Projects/PCM3/PCM3.htmlで公開されています。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Masked Scene Contrast: A Scalable Framework for Unsupervised 3D
Representation Learning [37.155772047656114]
Masked Scene Contrast (MSC)フレームワークは、より効率的かつ効果的に包括的な3D表現を抽出することができる。
MSCはまた、複数のデータセットにわたる大規模な3D事前トレーニングを可能にする。
論文 参考訳(メタデータ) (2023-03-24T17:59:58Z) - Contrast with Reconstruct: Contrastive 3D Representation Learning Guided
by Generative Pretraining [26.908554018069545]
本稿ではコントラストとReconstruct(ReCon)を融合したコントラストモデルを提案する。
Encoder-decoder スタイルの ReCon-block が提案されている。
ReConは、ScanObjectNNの91.26%の精度など、新しい最先端の3D表現学習を実現している。
論文 参考訳(メタデータ) (2023-02-05T06:58:35Z) - Improving the Modality Representation with Multi-View Contrastive
Learning for Multimodal Sentiment Analysis [15.623293264871181]
コントラスト学習によるモダリティ表現の改良手法について検討した。
我々は,多視点コントラスト学習を用いた3段階のフレームワークを考案し,特定の目的の表現を洗練させる。
3つのオープンデータセットで実験を行い、その結果、我々のモデルの進歩を示す。
論文 参考訳(メタデータ) (2022-10-28T01:25:16Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - PointACL:Adversarial Contrastive Learning for Robust Point Clouds
Representation under Adversarial Attack [73.3371797787823]
逆比較学習(Adversarial contrastive learning, ACL)は、事前学習されたモデルの堅牢性を改善する効果的な方法と考えられている。
本稿では,自己指導型コントラスト学習フレームワークを逆向きに学習するために,ロバストな認識損失関数を提案する。
提案手法であるPointACLを,複数のデータセットを用いた3次元分類と3次元分割を含む下流タスクで検証する。
論文 参考訳(メタデータ) (2022-09-14T22:58:31Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Augmented Skeleton Based Contrastive Action Learning with Momentum LSTM
for Unsupervised Action Recognition [16.22360992454675]
近年では3Dスケルトンデータによる行動認識が重要視されている。
本稿では,AS-CALという対照的な行動学習パラダイムを初めて提案する。
提案手法は,従来の手作り手法を10~50%の精度で改善する。
論文 参考訳(メタデータ) (2020-08-01T06:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。