論文の概要: SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
- arxiv url: http://arxiv.org/abs/2511.19319v1
- Date: Mon, 24 Nov 2025 17:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.333633
- Title: SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
- Title(参考訳): SyncMV4D:ハンドオブジェクトインタラクション合成のための出現・運動の同時多視点同時拡散
- Authors: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu,
- Abstract要約: 同期多視点HOIビデオと4Dモーションを共同生成する最初のモデルであるSyncMV4Dを紹介する。
本手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 47.61773799705708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)生成は、アニメーションやロボット工学にまたがる応用を進める上で重要な役割を果たしている。
現在のビデオベースの手法は、主に単一ビューであり、包括的な3次元幾何学的知覚を阻害し、しばしば幾何学的歪みや非現実的な動きパターンをもたらす。
3D HOIアプローチは動的に可塑性運動を生成することができるが、制御された実験室で捉えた高品質な3Dデータへの依存は、現実のシナリオへの一般化を著しく制限する。
これらの制約を克服するため、SyncMV4Dは、視覚的先行性、モーションダイナミクス、マルチビュー幾何を統一することにより、同期されたマルチビューHOIビデオと4Dモーションを共同で生成する最初のモデルである。
本フレームワークは,(1)HOIビデオと中間動作を同時生成するMJDモデル,(2)粗い中間運動をグローバルに整列した4次元距離軌跡に洗練するDPAモデル,の2つのコアイノベーションを特徴としている。
2次元の外観と4次元のダイナミックスを密に結合するために,閉ループの相互拡張サイクルを構築した。
拡散復調過程において、生成した映像条件は、4D運動の洗練であり、アライメントされた4Dポイントトラックは次のステップのジョイント生成を誘導するために再投影される。
提案手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
関連論文リスト
- SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [63.68181731564576]
Inbetween-2-4Dという,2枚のシングルビュー画像を補間する4次元(つまり3D + モーション)の生成問題を提案する。
テキストや1つの画像のみからの映像/4D生成とは対照的に、補間タスクはより正確なモーション制御を利用して生成をよりよく制約することができる。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。