論文の概要: Open-Vocabulary Functional 3D Human-Scene Interaction Generation
- arxiv url: http://arxiv.org/abs/2601.20835v1
- Date: Wed, 28 Jan 2026 18:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.097033
- Title: Open-Vocabulary Functional 3D Human-Scene Interaction Generation
- Title(参考訳): オープンボキャブラリ機能3次元ヒューマン・シーンインタラクション生成
- Authors: Jie Liu, Yu Sun, Alpar Cseke, Yao Feng, Nicolas Heron, Michael J. Black, Yan Zhang,
- Abstract要約: FunHSIは、オープンな語彙のタスクプロンプトから機能的にヒューマン・シーンのインタラクションを可能にする、トレーニング不要のフレームワークである。
本研究では,FunHSIが室内・屋外の多様な場面において,機能的正当かつ物理的に妥当なヒューマン・シーンの相互作用を連続的に生成することを示す。
- 参考スコア(独自算出の注目度): 45.61489012931424
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating 3D humans that functionally interact with 3D scenes remains an open problem with applications in embodied AI, robotics, and interactive content creation. The key challenge involves reasoning about both the semantics of functional elements in 3D scenes and the 3D human poses required to achieve functionality-aware interaction. Unfortunately, existing methods typically lack explicit reasoning over object functionality and the corresponding human-scene contact, resulting in implausible or functionally incorrect interactions. In this work, we propose FunHSI, a training-free, functionality-driven framework that enables functionally correct human-scene interactions from open-vocabulary task prompts. Given a task prompt, FunHSI performs functionality-aware contact reasoning to identify functional scene elements, reconstruct their 3D geometry, and model high-level interactions via a contact graph. We then leverage vision-language models to synthesize a human performing the task in the image and estimate proposed 3D body and hand poses. Finally, the proposed 3D body configuration is refined via stage-wise optimization to ensure physical plausibility and functional correctness. In contrast to existing methods, FunHSI not only synthesizes more plausible general 3D interactions, such as "sitting on a sofa'', while supporting fine-grained functional human-scene interactions, e.g., "increasing the room temperature''. Extensive experiments demonstrate that FunHSI consistently generates functionally correct and physically plausible human-scene interactions across diverse indoor and outdoor scenes.
- Abstract(参考訳): 3Dシーンと機能的に相互作用する3Dヒューマンの生成は、AI、ロボティクス、インタラクティブコンテンツ作成の応用において、依然として未解決の問題である。
重要な課題は、3Dシーンにおける機能要素の意味論と、機能認識インタラクションを実現するために必要な3Dヒューマンポーズの両方を推論することである。
残念なことに、既存の手法は、通常、対象の機能と対応する人間とシーンの接触に対する明確な推論を欠いている。
本研究では,FunHSIを提案する。FunHSIは,オープン語彙タスクプロンプトからヒューマン・シーンのインタラクションを機能的に補正するフレームワークである。
タスクプロンプトが与えられた場合、FunHSIは機能的なシーン要素を特定し、それらの3D幾何学を再構築し、コンタクトグラフを介して高レベルのインタラクションをモデル化する機能対応のコンタクト推論を実行する。
次に、視覚言語モデルを用いて、画像中のタスクを実行する人間を合成し、提案した3Dボディと手ポーズを推定する。
最後に、提案した3Dボディ構成は、物理的妥当性と機能的正当性を確保するために、ステージワイズ最適化によって洗練される。
既存の方法とは対照的に、FunHSIは「ソファーに座る」などのより可塑性な一般的な3Dインタラクションを合成するだけでなく、「部屋の温度を上昇させる」といった微細な機能的なヒューマン・シーンインタラクションをサポートする。
広範囲にわたる実験により、FunHSIは、様々な屋内および屋外のシーンで、機能的に正しく、物理的に妥当なヒューマン・シーンの相互作用を一貫して生成することを示した。
関連論文リスト
- Language-guided 3D scene synthesis for fine-grained functionality understanding [64.148891566272]
タスクベース3Dシーン合成の最初の手法であるSynthFun3Dを紹介する。
パートレベルのアノテーションを備えた家具資産データベースを用いて,室内3次元環境を生成する。
適切な機能要素の3Dマスクを自動的に識別し、取り出すアクションが原因である。
論文 参考訳(メタデータ) (2025-11-28T14:40:03Z) - Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces [113.91791599146786]
本稿では,RGB-D画像から実世界の屋内環境の3次元シーングラフを推定するタスクを紹介する。
オブジェクトの空間的関係に焦点を当てた従来の3Dシーングラフとは異なり、機能的な3Dシーングラフはオブジェクト、インタラクティブな要素、およびそれらの機能的関係をキャプチャする。
我々は,拡張されたSceneFun3Dデータセットと新たに収集されたFunGraph3Dに対して,機能的な3Dシーングラフを付加したアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-24T22:53:19Z) - FunHOI: Annotation-Free 3D Hand-Object Interaction Generation via Functional Text Guidanc [9.630837159704004]
ハンドオブジェクトインタラクション(HOI)は、人間と環境の基本的なリンクである。
AIとロボティクスの進歩にもかかわらず、機能的把握タスクのセマンティクスを捉えることは大きな課題である。
本稿では,関数型テキストによって駆動される3次元HOIを生成するために,FGS-Net(Functional Grasp Synthesis Net)という,革新的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T07:42:54Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - Fixing Malfunctional Objects With Learned Physical Simulation and
Functional Prediction [158.74130075865835]
機能不全な3Dオブジェクトが与えられたら、人間はその機能を推論し、どのように修正するかを理解するために精神シミュレーションを行うことができる。
人間の心的シミュレーションプロセスの模倣として,知覚と物理力学をシームレスに組み込んだ新しいフレームワークであるFixNetを提案する。
論文 参考訳(メタデータ) (2022-05-05T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。