論文の概要: Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation
- arxiv url: http://arxiv.org/abs/2603.07697v1
- Date: Sun, 08 Mar 2026 15:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.028947
- Title: Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation
- Title(参考訳): 効率的な運動注意集約を伴うマスケ運動拡散モデルに対する文脈適応型運動優先学習
- Authors: Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang,
- Abstract要約: 本稿では,拡散型生成再構成フレームワークであるMasked Motion Diffusion Model (MMDM)を紹介する。
MMDMは、Masked Autoencoderアーキテクチャ内で部分的に利用可能な高品質な再構成を用いて、不完全または低信頼な動作データを強化する。
我々は,同じ再利用可能なアーキテクチャによって抽出された,文脈適応型動作先行学習,特別な構造的特徴と時間的特徴に着目した。
- 参考スコア(独自算出の注目度): 7.101824215756715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based motion capture solutions often struggle with occlusions, which result in the loss of critical joint information and hinder accurate 3D motion reconstruction. Other wearable alternatives also suffer from noisy or unstable data, often requiring extensive manual cleaning and correction to achieve reliable results. To address these challenges, we introduce the Masked Motion Diffusion Model (MMDM), a diffusion-based generative reconstruction framework that enhances incomplete or low-confidence motion data using partially available high-quality reconstructions within a Masked Autoencoder architecture. Central to our design is the Kinematic Attention Aggregation (KAA) mechanism, which enables efficient, deep, and iterative encoding of both joint-level and pose-level features, capturing structural and temporal motion patterns essential for task-specific reconstruction. We focus on learning context-adaptive motion priors, specialized structural and temporal features extracted by the same reusable architecture, where each learned prior emphasizes different aspects of motion dynamics and is specifically efficient for its corresponding task. This enables the architecture to adaptively specialize without altering its structure. Such versatility allows MMDM to efficiently learn motion priors tailored to scenarios such as motion refinement, completion, and in-betweening. Extensive evaluations on public benchmarks demonstrate that MMDM achieves strong performance across diverse masking strategies and task settings. The source code is available at https://github.com/jjkislele/MMDM.
- Abstract(参考訳): 視覚に基づくモーションキャプチャーソリューションは、しばしば閉塞に苦しむため、重要な関節情報が失われ、正確な3Dモーション再構成が妨げられる。
他のウェアラブル代替製品もノイズや不安定なデータに悩まされており、信頼できる結果を得るためには広範囲の手作業によるクリーニングと修正が必要となることが多い。
これらの課題に対処するために,Masked Autoencoder アーキテクチャ内で部分的に利用可能な高品質な再構成を用いて,不完全あるいは低信頼な動作データを改善する拡散に基づく生成再構成フレームワークである Masked Motion Diffusion Model (MMDM) を導入する。
我々の設計の中心にあるのはKinematic Attention Aggregation(KAA)機構であり、これは、タスク固有の再構成に必要な構造的および時間的動きパターンをキャプチャし、関節レベルとポーズレベルの両方の特徴を効率よく、深く、反復的に符号化することを可能にする。
我々は,同じ再利用可能なアーキテクチャによって抽出された,文脈適応型動作先行学習,特別な構造的特徴と時間的特徴に着目し,各学習者は運動力学の異なる側面を強調し,対応するタスクに対して特に効率的である。
これによりアーキテクチャは、構造を変更することなく、適応的に特殊化することができる。
このような汎用性により、MMDMはモーションリファインメント、完了、相互接続といったシナリオに適した動きの事前学習を効率的に行うことができる。
公開ベンチマークの大規模な評価は、MMDMが様々なマスキング戦略やタスク設定にまたがって強力なパフォーマンスを達成していることを示している。
ソースコードはhttps://github.com/jjkislele/MMDMで入手できる。
関連論文リスト
- Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery [60.51998732898099]
HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
論文 参考訳(メタデータ) (2026-01-29T08:05:02Z) - Masked Modeling for Human Motion Recovery Under Occlusions [21.05382087890133]
MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化する、エンドツーエンドの生成フレームワークである。
MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2026-01-22T16:22:20Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - Masked Feature Modeling Enhances Adaptive Segmentation [9.279607578922683]
Masked Feature Modeling (MFM) は機能マスキングと再構成を行う新しい補助タスクである。
MFMは学習目標をメインセグメンテーションタスクと整合させ、DeepLabやDAFormerといった標準アーキテクチャとの互換性を確保する。
効率的な再構築を容易にするために,推論時に共同で訓練されるが破棄される軽量補助モジュールであるRebuilderを導入する。
論文 参考訳(メタデータ) (2025-09-17T08:16:05Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - MaskSem: Semantic-Guided Masking for Learning 3D Hybrid High-Order Motion Representation [14.527924445224302]
MaskSemは3次元ハイブリッド高次動き表現を学習するための意味誘導マスキング手法である。
本研究では,ハイブリッド高次運動を再構成対象とし,モデルが多次運動パターンを学習できるようにする。
実験により、MaskSemはバニラ変圧器と組み合わせて骨格に基づく行動認識を改善することが示された。
論文 参考訳(メタデータ) (2025-08-18T14:24:04Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Physics-Driven Autoregressive State Space Models for Medical Image Reconstruction [5.208643222679356]
本研究では,高忠実かつ効率的な画像再構成のための物理駆動自己回帰状態空間モデル(SSM)であるMambaRollを提案する。
MambaRollは、各カスケードが粗いスケールの表現でより微細な特徴マップを自動回帰予測するアンロールアーキテクチャを採用している。
MambaRoll は最新 CNN 法, Transformer- 法, SSM 法を常に上回っている。
論文 参考訳(メタデータ) (2024-12-12T14:59:56Z) - Masked Motion Predictors are Strong 3D Action Representation Learners [143.9677635274393]
人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
論文 参考訳(メタデータ) (2023-08-14T11:56:39Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。