論文の概要: MaskSem: Semantic-Guided Masking for Learning 3D Hybrid High-Order Motion Representation
- arxiv url: http://arxiv.org/abs/2508.12948v1
- Date: Mon, 18 Aug 2025 14:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.374197
- Title: MaskSem: Semantic-Guided Masking for Learning 3D Hybrid High-Order Motion Representation
- Title(参考訳): MaskSem:3Dハイブリッド高次動き表現学習のための意味誘導型マスキング
- Authors: Wei Wei, Shaojie Zhang, Yonghao Dang, Jianqin Yin,
- Abstract要約: MaskSemは3次元ハイブリッド高次動き表現を学習するための意味誘導マスキング手法である。
本研究では,ハイブリッド高次運動を再構成対象とし,モデルが多次運動パターンを学習できるようにする。
実験により、MaskSemはバニラ変圧器と組み合わせて骨格に基づく行動認識を改善することが示された。
- 参考スコア(独自算出の注目度): 14.527924445224302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition is a crucial task for intelligent robotics, particularly within the context of human-robot collaboration research. In self-supervised skeleton-based action recognition, the mask-based reconstruction paradigm learns the spatial structure and motion patterns of the skeleton by masking joints and reconstructing the target from unlabeled data. However, existing methods focus on a limited set of joints and low-order motion patterns, limiting the model's ability to understand complex motion patterns. To address this issue, we introduce MaskSem, a novel semantic-guided masking method for learning 3D hybrid high-order motion representations. This novel framework leverages Grad-CAM based on relative motion to guide the masking of joints, which can be represented as the most semantically rich temporal orgions. The semantic-guided masking process can encourage the model to explore more discriminative features. Furthermore, we propose using hybrid high-order motion as the reconstruction target, enabling the model to learn multi-order motion patterns. Specifically, low-order motion velocity and high-order motion acceleration are used together as the reconstruction target. This approach offers a more comprehensive description of the dynamic motion process, enhancing the model's understanding of motion patterns. Experiments on the NTU60, NTU120, and PKU-MMD datasets show that MaskSem, combined with a vanilla transformer, improves skeleton-based action recognition, making it more suitable for applications in human-robot interaction.
- Abstract(参考訳): 人間の行動認識は知的ロボティクスにとって重要な課題であり、特に人間とロボットの協調研究の文脈において重要である。
自己監督型骨格に基づく行動認識において、マスクベースの再構成パラダイムは、関節をマスキングし、ラベルのないデータからターゲットを再構築することにより、骨格の空間構造と運動パターンを学習する。
しかし、既存の手法では、限られた関節と低次の動きパターンに焦点を合わせ、複雑な動きパターンを理解する能力を制限する。
この問題に対処するために,3次元ハイブリッド高次動き表現を学習するための意味誘導型マスキング手法であるMaskSemを紹介する。
この新しいフレームワークは、相対運動に基づくGrad-CAMを利用して関節のマスキングを誘導し、最も意味的に豊かな側頭骨として表すことができる。
セマンティック誘導マスキングプロセスは、モデルにより差別的な特徴を探求するよう促すことができる。
さらに,ハイブリッド高次動きを再構成対象とし,モデルが多次動きパターンを学習できるようにする。
具体的には、再建対象として、低次運動速度と高次運動加速度を併用する。
このアプローチは、動的運動過程をより包括的に記述し、モデルによる動きパターンの理解を深める。
NTU60、NTU120、PKU-MMDデータセットの実験により、MaskSemはバニラトランスフォーマーと組み合わせて骨格に基づく行動認識を改善し、人間とロボットの相互作用の応用により適していることが示された。
関連論文リスト
- M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - Learning Semantic Facial Descriptors for Accurate Face Animation [43.370084532812044]
ディレンマに対処するために,学習可能な不整合ベクトル空間に意味的顔記述子を導入する。
音源と駆動面にエンコーダを用いてベースベクトル係数を求め, 同一性および動作部分空間に有効な顔記述子を導出する。
提案手法は,高忠実度同定におけるモデルベース手法の限界問題と,高精度な動き伝達におけるモデルフリー手法が直面する課題に対処する。
論文 参考訳(メタデータ) (2025-01-29T15:40:42Z) - Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Masked Motion Predictors are Strong 3D Action Representation Learners [143.9677635274393]
人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
論文 参考訳(メタデータ) (2023-08-14T11:56:39Z) - GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。