論文の概要: VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification
- arxiv url: http://arxiv.org/abs/2512.09646v1
- Date: Wed, 10 Dec 2025 13:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.538784
- Title: VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification
- Title(参考訳): VHOI:モーションデンシフィケーションによるスパース軌道からの人間と物体の相互作用の制御可能なビデオ生成
- Authors: Wanyue Zhang, Lin Geng Foo, Thabo Beeler, Rishabh Dabral, Christian Theobalt,
- Abstract要約: VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
- 参考スコア(独自算出の注目度): 65.15340059997273
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthesizing realistic human-object interactions (HOI) in video is challenging due to the complex, instance-specific interaction dynamics of both humans and objects. Incorporating controllability in video generation further adds to the complexity. Existing controllable video generation approaches face a trade-off: sparse controls like keypoint trajectories are easy to specify but lack instance-awareness, while dense signals such as optical flow, depths or 3D meshes are informative but costly to obtain. We propose VHOI, a two-stage framework that first densifies sparse trajectories into HOI mask sequences, and then fine-tunes a video diffusion model conditioned on these dense masks. We introduce a novel HOI-aware motion representation that uses color encodings to distinguish not only human and object motion, but also body-part-specific dynamics. This design incorporates a human prior into the conditioning signal and strengthens the model's ability to understand and generate realistic HOI dynamics. Experiments demonstrate state-of-the-art results in controllable HOI video generation. VHOI is not limited to interaction-only scenarios and can also generate full human navigation leading up to object interactions in an end-to-end manner. Project page: https://vcai.mpi-inf.mpg.de/projects/vhoi/.
- Abstract(参考訳): ビデオにおけるリアルな人間と物体の相互作用(HOI)の合成は、人間と物体の両方の複雑なインスタンス固有の相互作用のダイナミクスのために困難である。
ビデオ生成における制御性の導入により、さらに複雑さが増す。
既存の制御可能なビデオ生成アプローチはトレードオフに直面している: キーポイントトラジェクトリのようなスパースコントロールは容易に指定できるが、インスタンス認識に欠ける。
VHOIは、まずスパース軌道をHOIマスクシーケンスにデジタイズし、次にこれらの密密なマスクに条件付けられたビデオ拡散モデルを微調整する2段階のフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性を識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
この設計は、人間の事前を条件付け信号に組み込んで、現実的なHOIダイナミクスを理解し、生成するモデルの能力を強化する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
VHOIはインタラクションのみのシナリオに限らず、エンド・ツー・エンドの方法でオブジェクト間のインタラクションにつながる完全なヒューマンナビゲーションを生成することもできる。
プロジェクトページ:https://vcai.mpi-inf.mpg.de/projects/vhoi/。
関連論文リスト
- Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。