Fugu-MT 論文翻訳(概要): IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model

論文の概要: IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model

arxiv url: http://arxiv.org/abs/2505.21146v1
Date: Tue, 27 May 2025 12:57:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.656862
Title: IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model
Title（参考訳）: IKMo:軌跡条件付き運動拡散モデルを用いた画像キーフレーム運動生成
Authors: Yang Zhao, Yan Zhang, Xubo Yang,
Abstract要約: IKMoは、軌跡とポーズを分離した拡散モデルに基づく画像キーフレームのモーション生成法である。 MLLMベースのエージェントは、プリプロセスモデル入力に実装される。実験結果から,MLLMをベースとしたエージェントの事前処理により,ユーザの期待に合致した動作が生成できることが証明された。
参考スコア（独自算出の注目度）: 12.556271501037234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing human motion generation methods with trajectory and pose inputs operate global processing on both modalities, leading to suboptimal outputs. In this paper, we propose IKMo, an image-keyframed motion generation method based on the diffusion model with trajectory and pose being decoupled. The trajectory and pose inputs go through a two-stage conditioning framework. In the first stage, the dedicated optimization module is applied to refine inputs. In the second stage, trajectory and pose are encoded via a Trajectory Encoder and a Pose Encoder in parallel. Then, motion with high spatial and semantic fidelity is guided by a motion ControlNet, which processes the fused trajectory and pose data. Experiment results based on HumanML3D and KIT-ML datasets demonstrate that the proposed method outperforms state-of-the-art on all metrics under trajectory-keyframe constraints. In addition, MLLM-based agents are implemented to pre-process model inputs. Given texts and keyframe images from users, the agents extract motion descriptions, keyframe poses, and trajectories as the optimized inputs into the motion generation model. We conducts a user study with 10 participants. The experiment results prove that the MLLM-based agents pre-processing makes generated motion more in line with users' expectation. We believe that the proposed method improves both the fidelity and controllability of motion generation by the diffusion model.
Abstract（参考訳）: 既存の人間の動作生成手法では、軌道とポーズの入力が両モードで大域的に処理されるため、最適以下の出力が得られる。本稿では,拡散モデルに基づく画像キーフレームによる動き生成手法であるIKMoを提案する。軌道とポーズの入力は2段階の条件付けフレームワークを介して行われる。第1段階では、専用最適化モジュールが入力を洗練するために適用される。第2段階では、トラジェクトリとポーズは、トラジェクトリエンコーダとポスエンコーダを介して並列に符号化される。そして、この融合軌跡を処理し、データをポーズするモーション制御ネットにより、空間的・意味的忠実度の高い動きを導出する。 HumanML3DとKIT-MLデータセットに基づく実験結果から,提案手法はトラジェクティブ・キーフレーム制約下でのすべての指標において,最先端の手法よりも優れていることが示された。さらにMLLMベースのエージェントをプリプロセスモデル入力に実装する。ユーザからテキストとキーフレームの画像が与えられた場合、エージェントは、モーション生成モデルに最適化された入力として、モーション記述、キーフレームポーズ、トラジェクトリを抽出する。 10人の参加者でユーザスタディを実施します。実験の結果,MLLMをベースとしたエージェントの事前処理により,ユーザの期待に沿う動きをより多く生成できることが証明された。提案手法は,拡散モデルによる運動生成の忠実度と制御性の両方を向上すると考えられる。

関連論文リスト

ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文参考訳（メタデータ） (2025-01-07T11:03:43Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文参考訳（メタデータ） (2024-06-25T03:50:20Z)
Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文参考訳（メタデータ） (2024-05-24T11:12:37Z)
Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-04-19T19:44:24Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
SceneDM: Scene-level Multi-agent Trajectory Generation with Consistent Diffusion Models [10.057312592344507]
本研究では,SceneDMと呼ばれる拡散モデルに基づく新しいフレームワークを提案する。 SceneDMはSim Agents Benchmarkで最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-27T11:39:27Z)
Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文参考訳（メタデータ） (2023-06-01T07:48:34Z)
Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文参考訳（メタデータ） (2021-02-04T14:26:42Z)
Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-11T04:20:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。