論文の概要: HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception
- arxiv url: http://arxiv.org/abs/2506.01579v1
- Date: Mon, 02 Jun 2025 12:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.301133
- Title: HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception
- Title(参考訳): HOSIG:階層的シーン知覚を用いたフルボディヒューマン・オブジェクト・シーンインタラクション生成
- Authors: Wei Yao, Yunlian Sun, Hongwen Zhang, Yebin Liu, Jinhui Tang,
- Abstract要約: HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
- 参考スコア(独自算出の注目度): 57.37135310143126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-fidelity full-body human interactions with dynamic objects and static scenes remains a critical challenge in computer graphics and animation. Existing methods for human-object interaction often neglect scene context, leading to implausible penetrations, while human-scene interaction approaches struggle to coordinate fine-grained manipulations with long-range navigation. To address these limitations, we propose HOSIG, a novel framework for synthesizing full-body interactions through hierarchical scene perception. Our method decouples the task into three key components: 1) a scene-aware grasp pose generator that ensures collision-free whole-body postures with precise hand-object contact by integrating local geometry constraints, 2) a heuristic navigation algorithm that autonomously plans obstacle-avoiding paths in complex indoor environments via compressed 2D floor maps and dual-component spatial reasoning, and 3) a scene-guided motion diffusion model that generates trajectory-controlled, full-body motions with finger-level accuracy by incorporating spatial anchors and dual-space classifier-free guidance. Extensive experiments on the TRUMANS dataset demonstrate superior performance over state-of-the-art methods. Notably, our framework supports unlimited motion length through autoregressive generation and requires minimal manual intervention. This work bridges the critical gap between scene-aware navigation and dexterous object manipulation, advancing the frontier of embodied interaction synthesis. Codes will be available after publication. Project page: http://yw0208.github.io/hosig
- Abstract(参考訳): 動的オブジェクトや静的シーンと高忠実なフルボディのヒューマンインタラクションを生成することは、コンピュータグラフィックスやアニメーションにおいて重要な課題である。
既存の人間と物体の相互作用の方法は、しばしばシーンコンテキストを無視し、不可解な侵入を引き起こし、一方、人間とシーンの相互作用アプローチは、細かな操作と長距離ナビゲーションを協調するのに苦労する。
これらの制約に対処するために,階層的なシーン認識を通じて全身インタラクションを合成する新しいフレームワークであるHOSIGを提案する。
私たちのメソッドはタスクを3つの重要なコンポーネントに分解します。
1)局所的な幾何学的制約を統合することで、正確な手動接触で、衝突のない全身姿勢を確保するシーン対応グリップポーズジェネレータ。
2)圧縮2次元フロアマップと二重成分空間推論による複雑な屋内環境における障害物回避経路を自律的に計画するヒューリスティックナビゲーションアルゴリズム
3)空間アンカーと二重空間クラシファイアフリーガイダンスを組み込むことにより,指の高さの精度で軌跡制御された全体動作を生成するシーン誘導型モーション拡散モデルを提案する。
TRUMANSデータセットの大規模な実験は、最先端の手法よりも優れた性能を示している。
特に,我々のフレームワークは自己回帰生成による運動長の無制限化をサポートし,手動による介入が最小限である。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋め、エンボディドインタラクション合成のフロンティアを前進させる。
コードは公開後利用可能。
プロジェクトページ: http://yw0208.github.io/hosig
関連論文リスト
- Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Synthesizing Physically Plausible Human Motions in 3D Scenes [39.16696410790455]
本稿では,人間とシーンの相互作用を合成するための物理に基づく文字制御フレームワークを提案する。
主要なアイデアは、人間とシーンのインタラクションを2つの基本的なプロセス、InteractingとNavigatingに分離することである。
乱雑な環境でのナビゲーションを実現するため,我々はNavConを紹介した。
論文 参考訳(メタデータ) (2023-08-17T15:17:49Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。