論文の概要: IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.21146v1
- Date: Tue, 27 May 2025 12:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.656862
- Title: IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model
- Title(参考訳): IKMo:軌跡条件付き運動拡散モデルを用いた画像キーフレーム運動生成
- Authors: Yang Zhao, Yan Zhang, Xubo Yang,
- Abstract要約: IKMoは、軌跡とポーズを分離した拡散モデルに基づく画像キーフレームのモーション生成法である。
MLLMベースのエージェントは、プリプロセスモデル入力に実装される。
実験結果から,MLLMをベースとしたエージェントの事前処理により,ユーザの期待に合致した動作が生成できることが証明された。
- 参考スコア(独自算出の注目度): 12.556271501037234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing human motion generation methods with trajectory and pose inputs operate global processing on both modalities, leading to suboptimal outputs. In this paper, we propose IKMo, an image-keyframed motion generation method based on the diffusion model with trajectory and pose being decoupled. The trajectory and pose inputs go through a two-stage conditioning framework. In the first stage, the dedicated optimization module is applied to refine inputs. In the second stage, trajectory and pose are encoded via a Trajectory Encoder and a Pose Encoder in parallel. Then, motion with high spatial and semantic fidelity is guided by a motion ControlNet, which processes the fused trajectory and pose data. Experiment results based on HumanML3D and KIT-ML datasets demonstrate that the proposed method outperforms state-of-the-art on all metrics under trajectory-keyframe constraints. In addition, MLLM-based agents are implemented to pre-process model inputs. Given texts and keyframe images from users, the agents extract motion descriptions, keyframe poses, and trajectories as the optimized inputs into the motion generation model. We conducts a user study with 10 participants. The experiment results prove that the MLLM-based agents pre-processing makes generated motion more in line with users' expectation. We believe that the proposed method improves both the fidelity and controllability of motion generation by the diffusion model.
- Abstract(参考訳): 既存の人間の動作生成手法では、軌道とポーズの入力が両モードで大域的に処理されるため、最適以下の出力が得られる。
本稿では,拡散モデルに基づく画像キーフレームによる動き生成手法であるIKMoを提案する。
軌道とポーズの入力は2段階の条件付けフレームワークを介して行われる。
第1段階では、専用最適化モジュールが入力を洗練するために適用される。
第2段階では、トラジェクトリとポーズは、トラジェクトリエンコーダとポスエンコーダを介して並列に符号化される。
そして、この融合軌跡を処理し、データをポーズするモーション制御ネットにより、空間的・意味的忠実度の高い動きを導出する。
HumanML3DとKIT-MLデータセットに基づく実験結果から,提案手法はトラジェクティブ・キーフレーム制約下でのすべての指標において,最先端の手法よりも優れていることが示された。
さらにMLLMベースのエージェントをプリプロセスモデル入力に実装する。
ユーザからテキストとキーフレームの画像が与えられた場合、エージェントは、モーション生成モデルに最適化された入力として、モーション記述、キーフレームポーズ、トラジェクトリを抽出する。
10人の参加者でユーザスタディを実施します。
実験の結果,MLLMをベースとしたエージェントの事前処理により,ユーザの期待に沿う動きをより多く生成できることが証明された。
提案手法は,拡散モデルによる運動生成の忠実度と制御性の両方を向上すると考えられる。
関連論文リスト
- Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文 参考訳(メタデータ) (2024-06-25T03:50:20Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - SceneDM: Scene-level Multi-agent Trajectory Generation with Consistent
Diffusion Models [10.057312592344507]
本研究では,SceneDMと呼ばれる拡散モデルに基づく新しいフレームワークを提案する。
SceneDMはSim Agents Benchmarkで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-27T11:39:27Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。