論文の概要: ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors
- arxiv url: http://arxiv.org/abs/2603.04338v1
- Date: Wed, 04 Mar 2026 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.439533
- Title: ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors
- Title(参考訳): ArtHOI:ビデオ先行画像からの4次元再構成による人工人間と物体の相互作用合成
- Authors: Zihao Huang, Tianqi Liu, Zhaoxi Chen, Shaocong Xu, Saining Zhang, Lixing Xiao, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu,
- Abstract要約: ビデオ先行画像からの4D再構成による人-物間相互作用合成のための最初のゼロショットフレームワークであるArtHOIを紹介する。
ArtHOIは、ビデオベースの生成と幾何学的認識の再構築をブリッジし、セマンティックアライメントと物理的基盤の両方のインタラクションを生成する。
- 参考スコア(独自算出の注目度): 51.06020148149403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthesizing physically plausible articulated human-object interactions (HOI) without 3D/4D supervision remains a fundamental challenge. While recent zero-shot approaches leverage video diffusion models to synthesize human-object interactions, they are largely confined to rigid-object manipulation and lack explicit 4D geometric reasoning. To bridge this gap, we formulate articulated HOI synthesis as a 4D reconstruction problem from monocular video priors: given only a video generated by a diffusion model, we reconstruct a full 4D articulated scene without any 3D supervision. This reconstruction-based approach treats the generated 2D video as supervision for an inverse rendering problem, recovering geometrically consistent and physically plausible 4D scenes that naturally respect contact, articulation, and temporal coherence. We introduce ArtHOI, the first zero-shot framework for articulated human-object interaction synthesis via 4D reconstruction from video priors. Our key designs are: 1) Flow-based part segmentation: leveraging optical flow as a geometric cue to disentangle dynamic from static regions in monocular video; 2) Decoupled reconstruction pipeline: joint optimization of human motion and object articulation is unstable under monocular ambiguity, so we first recover object articulation, then synthesize human motion conditioned on the reconstructed object states. ArtHOI bridges video-based generation and geometry-aware reconstruction, producing interactions that are both semantically aligned and physically grounded. Across diverse articulated scenes (e.g., opening fridges, cabinets, microwaves), ArtHOI significantly outperforms prior methods in contact accuracy, penetration reduction, and articulation fidelity, extending zero-shot interaction synthesis beyond rigid manipulation through reconstruction-informed synthesis.
- Abstract(参考訳): 3D/4Dの監督なしに物理的に可塑性な人-物体相互作用(HOI)を合成することは、依然として根本的な課題である。
最近のゼロショットアプローチでは、ビデオ拡散モデルを利用して人間とオブジェクトの相互作用を合成するが、それらは剛体オブジェクトの操作に限られており、明示的な4次元幾何学的推論が欠如している。
このギャップを埋めるために,単眼ビデオからHOI合成を4次元再構成問題として定式化し,拡散モデルで生成されたビデオのみを考慮し,3次元の監督なしに全4次元合成シーンを再構築する。
この再構成に基づくアプローチは、生成した2D映像を逆レンダリング問題の監督として扱い、接触、調音、時間的コヒーレンスを自然に尊重する幾何学的に一貫した物理的に妥当な4Dシーンを復元する。
ビデオ先行画像からの4D再構成による人-物間相互作用合成のための最初のゼロショットフレームワークであるArtHOIを紹介する。
私たちの重要なデザインは以下のとおりです。
1)フローベース部分分割:光学的流れを幾何学的キューとして活用してモノクロ映像の静的領域から動的に絡み合う
2) 分離された再建パイプライン: 単分子的あいまいさ下では, 人間の動きと物体の関節の関節が不安定であるため, まず物体の関節を復元し, 再構成された物体状態に基づいて人間の動きを合成する。
ArtHOIは、ビデオベースの生成と幾何学的認識の再構築をブリッジし、セマンティックアライメントと物理的基盤の両方のインタラクションを生成する。
様々な調音シーン(例えば、冷蔵庫、キャビネット、電子レンジ)において、ArtHOIは接触精度、浸透率の低下、および調音の忠実さにおいて、従来手法よりも著しく優れており、再構成インフォームド合成により、剛性操作を超えてゼロショット相互作用合成を拡張している。
関連論文リスト
- MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives [65.89192712575797]
本研究では,モノクロ映像から再現可能な人物の動きとシーン形状を復元するCRISPを紹介する。
我々の手法は、人中心のビデオベンチマークにおいて、モーショントラッキングの失敗率を55.2%から6.9%に下げる。
このことは、CRISPが物理的に有意な人間の動きと対話環境を大規模に生成する能力を示している。
論文 参考訳(メタデータ) (2025-12-16T18:59:50Z) - CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction [40.557276644446475]
本稿では,モノクロRGBビデオから,空間的かつ一時的に一貫した4次元物体間相互作用を定量的に再現する最初のカテゴリー別手法であるCARI4Dを提案する。
我々のモデルは、トレーニングカテゴリを超えて一般化し、非ショットのインターネットビデオに適用することができる。
論文 参考訳(メタデータ) (2025-12-12T19:11:11Z) - VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video [60.63575135514847]
モノクロビデオから音声化されたオブジェクトのデジタルツインを構築することは、コンピュータビジョンにおいて重要な課題である。
本稿では,モノクロ映像から高忠実度デジタル双対を再構成する新しい手法であるVideoArtGSを紹介する。
VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
論文 参考訳(メタデータ) (2025-09-22T11:52:02Z) - HumanGenesis: Agent-Based Geometric and Generative Modeling for Synthetic Human Dynamics [60.737929335600015]
4つの協調エージェントを通して幾何学的および生成的モデリングを統合するフレームワークである textbfHumanGenesis を提示する。
HumanGenesisは、テキスト誘導合成、ビデオ再現、新規目的一般化といったタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-13T14:50:19Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - HOI-PAGE: Zero-Shot Human-Object Interaction Generation with Part Affordance Guidance [33.77779848399525]
テキストプロンプトから4次元の人間と物体の相互作用を合成するための新しいアプローチであるHOI-を提案する。
パート Affordance Graphs (PAGs) は、接触関係とともに、きめ細かい部分情報を符号化する。
我々のアプローチは柔軟であり、複雑な多目的または多対人インタラクションシーケンスを生成することができる。
論文 参考訳(メタデータ) (2025-06-08T16:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。