論文の概要: Diffusion Implicit Policy for Unpaired Scene-aware Motion Synthesis
- arxiv url: http://arxiv.org/abs/2412.02261v1
- Date: Tue, 03 Dec 2024 08:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:31.119075
- Title: Diffusion Implicit Policy for Unpaired Scene-aware Motion Synthesis
- Title(参考訳): 未確認シーン認識動作合成のための拡散インシシシトポリシー
- Authors: Jingyu Gong, Chong Zhang, Fengqi Liu, Ke Fan, Qianyu Zhou, Xin Tan, Zhizhong Zhang, Yuan Xie, Lizhuang Ma,
- Abstract要約: 本研究では,シーン認識動作合成のための統合フレームワークDIPを提案する。
本フレームワークでは,トレーニング中の動作合成から人間とシーンのインタラクションを分離する。
本研究の枠組みは, 切削工法よりも動作の自然性や相互作用の可視性が高いことを示す。
- 参考スコア(独自算出の注目度): 48.65197562914734
- License:
- Abstract: Human motion generation is a long-standing problem, and scene-aware motion synthesis has been widely researched recently due to its numerous applications. Prevailing methods rely heavily on paired motion-scene data whose quantity is limited. Meanwhile, it is difficult to generalize to diverse scenes when trained only on a few specific ones. Thus, we propose a unified framework, termed Diffusion Implicit Policy (DIP), for scene-aware motion synthesis, where paired motion-scene data are no longer necessary. In this framework, we disentangle human-scene interaction from motion synthesis during training and then introduce an interaction-based implicit policy into motion diffusion during inference. Synthesized motion can be derived through iterative diffusion denoising and implicit policy optimization, thus motion naturalness and interaction plausibility can be maintained simultaneously. The proposed implicit policy optimizes the intermediate noised motion in a GAN Inversion manner to maintain motion continuity and control keyframe poses though the ControlNet branch and motion inpainting. For long-term motion synthesis, we introduce motion blending for stable transitions between multiple sub-tasks, where motions are fused in rotation power space and translation linear space. The proposed method is evaluated on synthesized scenes with ShapeNet furniture, and real scenes from PROX and Replica. Results show that our framework presents better motion naturalness and interaction plausibility than cutting-edge methods. This also indicates the feasibility of utilizing the DIP for motion synthesis in more general tasks and versatile scenes. https://jingyugong.github.io/DiffusionImplicitPolicy/
- Abstract(参考訳): ヒトのモーション生成は長年の問題であり、シーン認識のモーション合成は、その多くの応用により近年広く研究されている。
一般的な方法は、量が限られているペアのモーションシーンデータに大きく依存する。
一方、特定の場面でのみ訓練を行う場合、多様な場面に一般化することは困難である。
そこで我々は,DIP (Diffusion Implicit Policy) と呼ばれる統合フレームワークを提案する。
本研究では,トレーニング中の動作合成から人間とシーンのインタラクションを遠ざけ,推論中の動作拡散に対話に基づく暗黙のポリシーを導入する。
合成運動は反復拡散復調と暗黙のポリシー最適化によって導出することができるので、運動の自然性と相互作用の可視性は同時に維持することができる。
提案した暗黙的ポリシーは、制御ネットの分岐と動きのインペインティングにもかかわらず、動きの連続性と制御キーフレームのポーズを維持するために、GANインバージョン方式で中間雑音運動を最適化する。
長期動作合成には、回転力空間と変換線形空間で運動が融合する複数のサブタスク間の安定な遷移のための動きブレンディングを導入する。
提案手法は,ShapeNet家具を用いた合成シーンと,PropXとReplicaの実際のシーンで評価する。
以上の結果から,本フレームワークは最先端手法よりも動作の自然性や相互作用の可視性が高いことが示された。
これはまた、より一般的な作業や多目的シーンにおける動作合成にDIPを活用する可能性を示している。
https://jingyugong.github.io/DiffusionImplicitPolicy/
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - DEMOS: Dynamic Environment Motion Synthesis in 3D Scenes via Local
Spherical-BEV Perception [54.02566476357383]
本研究では,動的環境運動合成フレームワーク(DEMOS)を提案する。
次に、最終動作合成のために潜在動作を動的に更新する。
その結果,本手法は従来の手法よりも優れ,動的環境の処理性能も優れていた。
論文 参考訳(メタデータ) (2024-03-04T05:38:16Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。
この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。
実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-05-25T18:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。