論文の概要: Object-Aware 4D Human Motion Generation
- arxiv url: http://arxiv.org/abs/2511.00248v1
- Date: Fri, 31 Oct 2025 20:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.690003
- Title: Object-Aware 4D Human Motion Generation
- Title(参考訳): 物体認識型4次元人体運動生成
- Authors: Shurui Gui, Deep Anil Patel, Xiner Li, Martin Renqiang Min,
- Abstract要約: 本研究では,3次元ガウス表現と移動拡散先行に基づくオブジェクト認識型4次元人体運動生成フレームワークを提案する。
我々の枠組みは3次元空間的文脈を尊重する自然的かつ物理的に妥当な人間の動きを生成する。
- 参考スコア(独自算出の注目度): 20.338809521456298
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in video diffusion models have enabled the generation of high-quality videos. However, these videos still suffer from unrealistic deformations, semantic violations, and physical inconsistencies that are largely rooted in the absence of 3D physical priors. To address these challenges, we propose an object-aware 4D human motion generation framework grounded in 3D Gaussian representations and motion diffusion priors. With pre-generated 3D humans and objects, our method, Motion Score Distilled Interaction (MSDI), employs the spatial and prompt semantic information in large language models (LLMs) and motion priors through the proposed Motion Diffusion Score Distillation Sampling (MSDS). The combination of MSDS and LLMs enables our spatial-aware motion optimization, which distills score gradients from pre-trained motion diffusion models, to refine human motion while respecting object and semantic constraints. Unlike prior methods requiring joint training on limited interaction datasets, our zero-shot approach avoids retraining and generalizes to out-of-distribution object aware human motions. Experiments demonstrate that our framework produces natural and physically plausible human motions that respect 3D spatial context, offering a scalable solution for realistic 4D generation.
- Abstract(参考訳): ビデオ拡散モデルの最近の進歩は、高品質なビデオの生成を可能にしている。
しかし、これらのビデオはいまだに非現実的な変形、セマンティックな違反、そして物理的不整合に悩まされている。
これらの課題に対処するために,3次元ガウス表現と動き拡散先行に基づくオブジェクト認識型4次元モーション生成フレームワークを提案する。
提案手法は,3次元人体と物体を用いて,大規模言語モデル (LLM) における空間的および迅速な意味情報と,MSDS (Motion Diffusion Score Distillation Sampling) による動作先行情報を利用する。
MSDSとLLMの組み合わせにより、事前学習した動き拡散モデルからスコア勾配を抽出し、オブジェクトやセマンティック制約を尊重しながら人間の動きを洗練することができる。
制限された相互作用データセットのジョイントトレーニングを必要とする従来の方法とは異なり、ゼロショットアプローチは再トレーニングを回避し、分布外物体が認識する人間の動きを一般化する。
実験により、我々のフレームワークは3次元空間的コンテキストを尊重する自然かつ物理的に可視な人間の動きを生成し、現実的な4次元生成のためのスケーラブルなソリューションを提供することが示された。
関連論文リスト
- SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - DAViD: Modeling Dynamic Affordance of 3D Objects Using Pre-trained Video Diffusion Models [9.103840202072336]
本稿では,様々な対象対象カテゴリにまたがって動的アフォーダンスを学習するための新しいフレームワークを提案する。
4D HOIデータセットの不足に対処するために, 合成した4D HOIサンプルから3次元ダイナミックアベイランスを学習する。
生成的4次元物体相互作用モデルであるDAViDがHOI動作のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-14T18:59:59Z) - MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。
具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。
大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-01T15:00:16Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - DiffMesh: A Motion-aware Diffusion Framework for Human Mesh Recovery from Videos [20.895221536570627]
ヒューマンメッシュリカバリ(Human Mesh recovery, HMR)は、さまざまな現実世界のアプリケーションに対して、リッチな人体情報を提供する。
ビデオベースのアプローチはこの問題を緩和するために時間的情報を活用する。
DiffMeshはビデオベースのHMRのための革新的な動き認識型拡散型フレームワークである。
論文 参考訳(メタデータ) (2023-03-23T16:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。