論文の概要: Diffusion Model-based Activity Completion for AI Motion Capture from Videos
- arxiv url: http://arxiv.org/abs/2505.21566v1
- Date: Tue, 27 May 2025 05:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.167968
- Title: Diffusion Model-based Activity Completion for AI Motion Capture from Videos
- Title(参考訳): ビデオからのAIモーションキャプチャのための拡散モデルに基づくアクティビティ補完
- Authors: Gao Huayu, Huang Tengjiu, Ye Xiaolong, Tsuyoshi Okita,
- Abstract要約: 現在のAIモーションキャプチャ法は、従来のモーションキャプチャと同様、観察されたビデオシーケンスに完全に依存している。
本稿では,人間の動作系列を相補的に生成する拡散モデルに基づく動作完了手法を提案する。
ゲートモジュールと位置時間埋め込みモジュールを導入することで,Human3.6Mデータセット上での競合的な結果が得られる。
- 参考スコア(独自算出の注目度): 2.9271399793140076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-based motion capture is an emerging technology that offers a cost-effective alternative to traditional motion capture systems. However, current AI motion capture methods rely entirely on observed video sequences, similar to conventional motion capture. This means that all human actions must be predefined, and movements outside the observed sequences are not possible. To address this limitation, we aim to apply AI motion capture to virtual humans, where flexible actions beyond the observed sequences are required. We assume that while many action fragments exist in the training data, the transitions between them may be missing. To bridge these gaps, we propose a diffusion-model-based action completion technique that generates complementary human motion sequences, ensuring smooth and continuous movements. By introducing a gate module and a position-time embedding module, our approach achieves competitive results on the Human3.6M dataset. Our experimental results show that (1) MDC-Net outperforms existing methods in ADE, FDE, and MMADE but is slightly less accurate in MMFDE, (2) MDC-Net has a smaller model size (16.84M) compared to HumanMAC (28.40M), and (3) MDC-Net generates more natural and coherent motion sequences. Additionally, we propose a method for extracting sensor data, including acceleration and angular velocity, from human motion sequences.
- Abstract(参考訳): AIベースのモーションキャプチャーは、従来のモーションキャプチャーシステムに代わる費用対効果を提供する新興技術である。
しかし、現在のAIモーションキャプチャ手法は、従来のモーションキャプチャと同様、観察されたビデオシーケンスに完全に依存している。
これは、すべての人間の行動は事前に定義されなければならないことを意味し、観察されたシーケンスの外の動きは不可能である。
この制限に対処するために、我々は、観察されたシーケンスを超えた柔軟なアクションが必要とされる仮想人間にAIモーションキャプチャーを適用することを目指している。
トレーニングデータには多くのアクションフラグメントが存在するが、それらの間の遷移が欠落している可能性があると仮定する。
これらのギャップを埋めるために,人間の動作系列を相補的に生成し,円滑かつ連続的な動きを確実にする拡散モデルに基づく動作完了手法を提案する。
ゲートモジュールと位置時間埋め込みモジュールを導入することで,Human3.6Mデータセット上での競合的な結果が得られる。
実験の結果,(1) MDC-NetはADE, FDE, MMADEの既存手法より優れているがMMFDEでは若干精度が低く,(2) MDC-NetはHumanMAC (28.40M)に比べてモデルサイズが小さく(16.84M)、(3) MDC-Netはより自然でコヒーレントな動作シーケンスを生成することがわかった。
また,人間の動作系列から加速度や角速度を含むセンサデータを抽出する手法を提案する。
関連論文リスト
- CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文 参考訳(メタデータ) (2025-05-22T17:58:27Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文 参考訳(メタデータ) (2025-03-25T05:51:14Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。
具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。
大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-01T15:00:16Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape
Estimation from Monocular Video [24.217269857183233]
映像から3次元の人間のポーズと形状を推定するために,動作中の人間を捕捉する動きポーズと形状ネットワーク(MPS-Net)を提案する。
具体的には、まず、人間の動きから観察された視覚的手がかりを利用して、シーケンス内の注意を必要とする範囲を適応的に再調整する動き継続注意(MoCA)モジュールを提案する。
MoCAとHAFIモジュールを結合することにより、提案したMPS-Netは、ビデオ中の3D人間のポーズと形状を推定するのに優れている。
論文 参考訳(メタデータ) (2022-03-16T11:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。