論文の概要: GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects
- arxiv url: http://arxiv.org/abs/2506.15483v1
- Date: Wed, 18 Jun 2025 14:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.686753
- Title: GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects
- Title(参考訳): Genhoi: 見えない物体に対するテキスト駆動型4次元オブジェクトインタラクション合成の一般化
- Authors: Shujia Li, Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Yutong Ban,
- Abstract要約: GenHOI は,1) 見えない物体への一般化,2) 高忠実度 4D HOI 配列の合成という2つの主要な目的を達成するための2段階のフレームワークである。
接触認識拡散モデル (ContactDM) を第2段階に導入し, 3D HOI を高密な時間的コヒーレントな 4D HOI 配列にシームレスに補間する。
実験の結果,OMOMODMおよび3D-FUTUREデータセットについて,現状の成果が得られた。
- 参考スコア(独自算出の注目度): 13.830968058014546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models and large-scale motion datasets have advanced text-driven human motion synthesis, extending these advances to 4D human-object interaction (HOI) remains challenging, mainly due to the limited availability of large-scale 4D HOI datasets. In our study, we introduce GenHOI, a novel two-stage framework aimed at achieving two key objectives: 1) generalization to unseen objects and 2) the synthesis of high-fidelity 4D HOI sequences. In the initial stage of our framework, we employ an Object-AnchorNet to reconstruct sparse 3D HOI keyframes for unseen objects, learning solely from 3D HOI datasets, thereby mitigating the dependence on large-scale 4D HOI datasets. Subsequently, we introduce a Contact-Aware Diffusion Model (ContactDM) in the second stage to seamlessly interpolate sparse 3D HOI keyframes into densely temporally coherent 4D HOI sequences. To enhance the quality of generated 4D HOI sequences, we propose a novel Contact-Aware Encoder within ContactDM to extract human-object contact patterns and a novel Contact-Aware HOI Attention to effectively integrate the contact signals into diffusion models. Experimental results show that we achieve state-of-the-art results on the publicly available OMOMO and 3D-FUTURE datasets, demonstrating strong generalization abilities to unseen objects, while enabling high-fidelity 4D HOI generation.
- Abstract(参考訳): 拡散モデルと大規模モーションデータセットは、テキスト駆動による人間のモーション合成が進んでいるが、大規模な4D HOIデータセットが限られているため、これらの進歩を4Dヒューマンオブジェクトインタラクション(HOI)に拡張することは依然として困難である。
本研究では,2つの目的を達成するための新しい2段階フレームワークであるGenhoiを紹介する。
1)見えない物体への一般化と
2) 高忠実度4DHOI配列の合成
フレームワークの初期段階では、オブジェクトのスパース3D HOIキーフレームを再構築するためにObject-AnchorNetを使用し、3D HOIデータセットのみから学習し、大規模な4D HOIデータセットへの依存を軽減する。
その後,第2段階では接触認識拡散モデル(ContactDM)を導入し,スパース3D HOIキーフレームを高密度に時間的コヒーレントな4D HOI配列にシームレスに補間する。
生成した4D HOI 配列の品質を向上させるため,コンタクトDM 内に新規な接触パターン抽出用コンタクト対応エンコーダと,接触信号を拡散モデルに効果的に統合する新規なコンタクト対応HOIアテンションを提案する。
実験結果から,OMOMOおよび3D-FUTUREデータセットを用いて,高忠実度 4D HOI 生成を実現しつつ,未確認物体に対する強力な一般化能力を示す。
関連論文リスト
- HOI-PAGE: Zero-Shot Human-Object Interaction Generation with Part Affordance Guidance [33.77779848399525]
テキストプロンプトから4次元の人間と物体の相互作用を合成するための新しいアプローチであるHOI-を提案する。
パート Affordance Graphs (PAGs) は、接触関係とともに、きめ細かい部分情報を符号化する。
我々のアプローチは柔軟であり、複雑な多目的または多対人インタラクションシーケンスを生成することができる。
論文 参考訳(メタデータ) (2025-06-08T16:15:39Z) - InteractVLM: 3D Interaction Reasoning from 2D Foundational Models [85.76211596755151]
InactVLMは、人体と物体の3次元接触点を、ワン・イン・ザ・ワイルド画像から推定する新しい手法である。
既存の方法は、高価なモーションキャプチャシステムや面倒な手動ラベリングを通じて収集された3Dコンタクトアノテーションに依存している。
本稿では,人間の接触予測を対象のセマンティクス上で明示的に条件付けするセマンティック・ヒューマン・コンタクト推定というタスクを提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:33Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models [9.103840202072336]
本稿では,様々な対象対象カテゴリにまたがって動的アフォーダンスを学習するための新しいフレームワークを提案する。
4D HOIデータセットの不足に対処するために, 合成した4D HOIサンプルから3次元ダイナミックアベイランスを学習する。
生成的4次元物体相互作用モデルであるDAViDがHOI動作のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-14T18:59:59Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [24.287902864042792]
我々は,新しい大規模4次元人間オブジェクト協調データセットであるCORE4Dを提案する。
現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。
CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文 参考訳(メタデータ) (2024-06-27T17:32:18Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。