論文の概要: Open-world Hand-Object Interaction Video Generation Based on Structure and Contact-aware Representation
- arxiv url: http://arxiv.org/abs/2512.01677v1
- Date: Mon, 01 Dec 2025 13:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.874641
- Title: Open-world Hand-Object Interaction Video Generation Based on Structure and Contact-aware Representation
- Title(参考訳): 構造と接触認識表現に基づくオープンワールドハンドオブジェクトインタラクションビデオ生成
- Authors: Haodong Yan, Hang Yu, Zhide Zhong, Weilin Yuan, Xin Gong, Zehang Luo, Chengxi Heyu, Junfeng Li, Wenxuan Song, Shunbo Zhou, Haoang Li,
- Abstract要約: 本研究では,3次元アノテーションを使わずに手対象接触,手対象閉塞,全体構造コンテキストをキャプチャする構造と接触認識表現を提案する。
この対話指向でスケーラブルな監視信号により、モデルは微粒な相互作用物理学を学習し、オープンワールドシナリオに一般化することができる。
本手法は物理実効性と時間的コヒーレントなHOIビデオを生成するために,2つの実世界のデータセット上で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 18.328135509017944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic hand-object interactions (HOI) videos is a significant challenge due to the difficulty of modeling physical constraints (e.g., contact and occlusion between hands and manipulated objects). Current methods utilize HOI representation as an auxiliary generative objective to guide video synthesis. However, there is a dilemma between 2D and 3D representations that cannot simultaneously guarantee scalability and interaction fidelity. To address this limitation, we propose a structure and contact-aware representation that captures hand-object contact, hand-object occlusion, and holistic structure context without 3D annotations. This interaction-oriented and scalable supervision signal enables the model to learn fine-grained interaction physics and generalize to open-world scenarios. To fully exploit the proposed representation, we introduce a joint-generation paradigm with a share-and-specialization strategy that generates interaction-oriented representations and videos. Extensive experiments demonstrate that our method outperforms state-of-the-art methods on two real-world datasets in generating physics-realistic and temporally coherent HOI videos. Furthermore, our approach exhibits strong generalization to challenging open-world scenarios, highlighting the benefit of our scalable design. Our project page is https://hgzn258.github.io/SCAR/.
- Abstract(参考訳): リアルなハンドオブジェクトインタラクション(HOI)ビデオの生成は、物理的な制約(例えば、手と操作対象間の接触や閉塞)をモデル化することが困難であるため、大きな課題である。
現在の方法では、HOI表現を映像合成の補助的生成目的として活用している。
しかし、2次元表現と3次元表現の間にはジレンマがあり、同時にスケーラビリティと相互作用の忠実さを保証できない。
この制限に対処するために,3次元アノテーションを使わずに手対象接触,手対象閉塞,全体構造コンテキストをキャプチャする構造と接触認識表現を提案する。
この対話指向でスケーラブルな監視信号により、モデルは微粒な相互作用物理学を学習し、オープンワールドシナリオに一般化することができる。
提案した表現を完全に活用するために,インタラクション指向の表現とビデオを生成する共有・特殊化戦略を用いた共同生成パラダイムを導入する。
大規模な実験により,本手法は物理現実性と時間的コヒーレントなHOIビデオの生成において,2つの実世界のデータセット上で最先端の手法より優れていることが示された。
さらに、我々のアプローチは、オープンワールドのシナリオに挑戦する強力な一般化を示し、スケーラブルな設計の利点を強調します。
私たちのプロジェクトページはhttps://hgzn258.github.io/SCAR/です。
関連論文リスト
- SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer [43.58952721477297]
そこで本論文では,新たなフレームワークであるiDiT-HOIについて述べる。
具体的には,2段階ビデオ拡散変換器(DiT)モデルを用いて,Inp-TPUと呼ばれる一体化インペイントベースのトークン処理手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T13:41:43Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文 参考訳(メタデータ) (2025-03-21T08:40:35Z) - ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping [37.40475678197331]
ManiVideoは、一貫した時間的コヒーレントな双方向手動操作ビデオを生成する方法である。
MLO構造をUNetに2つの形式で埋め込むことで、デキスタラスハンドオブジェクト操作の3次元一貫性を高めることができる。
複数のデータセットを効果的に統合し、人中心手オブジェクト操作ビデオ生成などの下流タスクをサポートする革新的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-18T00:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。