論文の概要: HOI-PAGE: Zero-Shot Human-Object Interaction Generation with Part Affordance Guidance
- arxiv url: http://arxiv.org/abs/2506.07209v1
- Date: Sun, 08 Jun 2025 16:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.713336
- Title: HOI-PAGE: Zero-Shot Human-Object Interaction Generation with Part Affordance Guidance
- Title(参考訳): HOI-PAGE:パートアフォーマンス誘導によるゼロショットヒューマンオブジェクトインタラクション生成
- Authors: Lei Li, Angela Dai,
- Abstract要約: テキストプロンプトから4次元の人間と物体の相互作用を合成するための新しいアプローチであるHOI-を提案する。
パート Affordance Graphs (PAGs) は、接触関係とともに、きめ細かい部分情報を符号化する。
我々のアプローチは柔軟であり、複雑な多目的または多対人インタラクションシーケンスを生成することができる。
- 参考スコア(独自算出の注目度): 33.77779848399525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HOI-PAGE, a new approach to synthesizing 4D human-object interactions (HOIs) from text prompts in a zero-shot fashion, driven by part-level affordance reasoning. In contrast to prior works that focus on global, whole body-object motion for 4D HOI synthesis, we observe that generating realistic and diverse HOIs requires a finer-grained understanding -- at the level of how human body parts engage with object parts. We thus introduce Part Affordance Graphs (PAGs), a structured HOI representation distilled from large language models (LLMs) that encodes fine-grained part information along with contact relations. We then use these PAGs to guide a three-stage synthesis: first, decomposing input 3D objects into geometric parts; then, generating reference HOI videos from text prompts, from which we extract part-based motion constraints; finally, optimizing for 4D HOI motion sequences that not only mimic the reference dynamics but also satisfy part-level contact constraints. Extensive experiments show that our approach is flexible and capable of generating complex multi-object or multi-person interaction sequences, with significantly improved realism and text alignment for zero-shot 4D HOI generation.
- Abstract(参考訳): 本研究では,テキストプロンプトから4次元人-物間相互作用(HOI)をゼロショット方式で合成する新しいアプローチであるHOI-PAGEを提案する。
4D HOI合成のためのグローバルな全身物体の動きに焦点を当てた以前の研究とは対照的に、現実的で多様なHOIを生成するには、人間の身体部分が対象部分とどのように関わるかというレベルで、よりきめ細かな理解が必要です。
そこで我々は,大規模言語モデル (LLM) から抽出した構造化HOI表現であるPart Affordance Graphs (PAGs) を導入する。
まず、入力された3Dオブジェクトを幾何学的部分へ分解し、次にテキストプロンプトから参照HOIビデオを生成し、そこから部分ベースの動作制約を抽出し、最後に、参照ダイナミクスを模倣するだけでなく、部分レベルの接触制約も満たす4次元HOIモーションシーケンスを最適化する。
広汎な実験により,本手法は柔軟で複雑な多目的・多対人インタラクションシーケンスを生成でき,ゼロショット4D HOI生成のための現実性やテキストアライメントを大幅に改善した。
関連論文リスト
- GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects [13.830968058014546]
GenHOI は,1) 見えない物体への一般化,2) 高忠実度 4D HOI 配列の合成という2つの主要な目的を達成するための2段階のフレームワークである。
接触認識拡散モデル (ContactDM) を第2段階に導入し, 3D HOI を高密な時間的コヒーレントな 4D HOI 配列にシームレスに補間する。
実験の結果,OMOMODMおよび3D-FUTUREデータセットについて,現状の成果が得られた。
論文 参考訳(メタデータ) (2025-06-18T14:17:53Z) - InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。
トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。
次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文 参考訳(メタデータ) (2025-05-30T07:53:55Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [24.287902864042792]
我々は,新しい大規模4次元人間オブジェクト協調データセットであるCORE4Dを提案する。
現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。
CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文 参考訳(メタデータ) (2024-06-27T17:32:18Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。