論文の概要: HOI-PAGE: Zero-Shot Human-Object Interaction Generation with Part Affordance Guidance
- arxiv url: http://arxiv.org/abs/2506.07209v1
- Date: Sun, 08 Jun 2025 16:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.713336
- Title: HOI-PAGE: Zero-Shot Human-Object Interaction Generation with Part Affordance Guidance
- Title(参考訳): HOI-PAGE:パートアフォーマンス誘導によるゼロショットヒューマンオブジェクトインタラクション生成
- Authors: Lei Li, Angela Dai,
- Abstract要約: テキストプロンプトから4次元の人間と物体の相互作用を合成するための新しいアプローチであるHOI-を提案する。
パート Affordance Graphs (PAGs) は、接触関係とともに、きめ細かい部分情報を符号化する。
我々のアプローチは柔軟であり、複雑な多目的または多対人インタラクションシーケンスを生成することができる。
- 参考スコア(独自算出の注目度): 33.77779848399525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HOI-PAGE, a new approach to synthesizing 4D human-object interactions (HOIs) from text prompts in a zero-shot fashion, driven by part-level affordance reasoning. In contrast to prior works that focus on global, whole body-object motion for 4D HOI synthesis, we observe that generating realistic and diverse HOIs requires a finer-grained understanding -- at the level of how human body parts engage with object parts. We thus introduce Part Affordance Graphs (PAGs), a structured HOI representation distilled from large language models (LLMs) that encodes fine-grained part information along with contact relations. We then use these PAGs to guide a three-stage synthesis: first, decomposing input 3D objects into geometric parts; then, generating reference HOI videos from text prompts, from which we extract part-based motion constraints; finally, optimizing for 4D HOI motion sequences that not only mimic the reference dynamics but also satisfy part-level contact constraints. Extensive experiments show that our approach is flexible and capable of generating complex multi-object or multi-person interaction sequences, with significantly improved realism and text alignment for zero-shot 4D HOI generation.
- Abstract(参考訳): 本研究では,テキストプロンプトから4次元人-物間相互作用(HOI)をゼロショット方式で合成する新しいアプローチであるHOI-PAGEを提案する。
4D HOI合成のためのグローバルな全身物体の動きに焦点を当てた以前の研究とは対照的に、現実的で多様なHOIを生成するには、人間の身体部分が対象部分とどのように関わるかというレベルで、よりきめ細かな理解が必要です。
そこで我々は,大規模言語モデル (LLM) から抽出した構造化HOI表現であるPart Affordance Graphs (PAGs) を導入する。
まず、入力された3Dオブジェクトを幾何学的部分へ分解し、次にテキストプロンプトから参照HOIビデオを生成し、そこから部分ベースの動作制約を抽出し、最後に、参照ダイナミクスを模倣するだけでなく、部分レベルの接触制約も満たす4次元HOIモーションシーケンスを最適化する。
広汎な実験により,本手法は柔軟で複雑な多目的・多対人インタラクションシーケンスを生成でき,ゼロショット4D HOI生成のための現実性やテキストアライメントを大幅に改善した。
関連論文リスト
- InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。
トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。
次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文 参考訳(メタデータ) (2025-05-30T07:53:55Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [24.287902864042792]
我々は,新しい大規模4次元人間オブジェクト協調データセットであるCORE4Dを提案する。
現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。
CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文 参考訳(メタデータ) (2024-06-27T17:32:18Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。