論文の概要: SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
- arxiv url: http://arxiv.org/abs/2506.02444v2
- Date: Wed, 04 Jun 2025 10:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.54013
- Title: SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
- Title(参考訳): SViMo:ハンドオブジェクトインタラクションシナリオにおけるビデオとモーション生成のための同期拡散
- Authors: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu,
- Abstract要約: ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.09735396455107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand-Object Interaction (HOI) generation has significant application potential. However, current 3D HOI motion generation approaches heavily rely on predefined 3D object models and lab-captured motion data, limiting generalization capabilities. Meanwhile, HOI video generation methods prioritize pixel-level visual fidelity, often sacrificing physical plausibility. Recognizing that visual appearance and motion patterns share fundamental physical laws in the real world, we propose a novel framework that combines visual priors and dynamic constraints within a synchronized diffusion process to generate the HOI video and motion simultaneously. To integrate the heterogeneous semantics, appearance, and motion features, our method implements tri-modal adaptive modulation for feature aligning, coupled with 3D full-attention for modeling inter- and intra-modal dependencies. Furthermore, we introduce a vision-aware 3D interaction diffusion model that generates explicit 3D interaction sequences directly from the synchronized diffusion outputs, then feeds them back to establish a closed-loop feedback cycle. This architecture eliminates dependencies on predefined object models or explicit pose guidance while significantly enhancing video-motion consistency. Experimental results demonstrate our method's superiority over state-of-the-art approaches in generating high-fidelity, dynamically plausible HOI sequences, with notable generalization capabilities in unseen real-world scenarios. Project page at https://github.com/Droliven/SViMo\_project.
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
しかし、現在の3D HOIモーション生成アプローチは、事前定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存しており、一般化能力を制限している。
一方、HOIビデオ生成手法はピクセルレベルの視覚的忠実度を優先し、しばしば物理的妥当性を犠牲にする。
視覚の出現と動きのパターンが現実世界の基本的物理法則を共有していることを認識し、同期拡散過程における視覚的先行と動的制約を組み合わせてHOIビデオと動きを同時に生成する新しい枠組みを提案する。
不均一なセマンティクス、外観、動作の特徴を統合するため、本手法では、特徴整合のための3次元適応変調と、モーダル間およびモーダル間依存関係のモデリングのための3次元フルアテンションを併用する。
さらに、同期拡散出力から直接明示的な3次元相互作用系列を生成する視覚対応3次元相互作用拡散モデルを導入し、それらをフィードバックしてクローズドループフィードバックサイクルを確立する。
このアーキテクチャは、事前に定義されたオブジェクトモデルや明示的なポーズガイダンスへの依存を排除し、ビデオモーションの一貫性を大幅に強化する。
実験により,本手法が高忠実で動的に可視なHOI配列を生成する上での最先端手法よりも優れていることを示すとともに,実世界のシナリオにおいて顕著な一般化能力を示す。
Project page at https://github.com/Droliven/SViMo\_project.com
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM [14.522189177415724]
MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。
本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。
実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction [22.420752010237052]
本稿では,パラメータ化された3次元物理知識を条件付きビデオ生成モデルに明示的に統合するプラグイン・アンド・プレイフレームワークReVisionを紹介する。
ReVisionは動きの忠実度とコヒーレンスを大幅に向上させる。
以上の結果から,3次元物理知識を取り入れることで,比較的小さな映像拡散モデルでも複雑な動きや,より現実性や操作性の高いインタラクションを生成できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T17:59:56Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。