論文の概要: PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI
- arxiv url: http://arxiv.org/abs/2404.09465v2
- Date: Wed, 10 Jul 2024 02:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:10:19.233801
- Title: PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI
- Title(参考訳): PhyScene:体操AIのための物理的に相互作用可能な3Dシーン合成
- Authors: Yandan Yang, Baoxiong Jia, Peiyuan Zhi, Siyuan Huang,
- Abstract要約: PhySceneは、リアルなレイアウト、明瞭なオブジェクト、エンボディエージェントに適したリッチな物理的相互作用によって特徴付けられるインタラクティブな3Dシーンを生成するための方法である。
我々はPhySceneがこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に利用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示した。
- 参考スコア(独自算出の注目度): 38.03745740636854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent developments in Embodied Artificial Intelligence (EAI) research, there has been a growing demand for high-quality, large-scale interactive scene generation. While prior methods in scene synthesis have prioritized the naturalness and realism of the generated scenes, the physical plausibility and interactivity of scenes have been largely left unexplored. To address this disparity, we introduce PhyScene, a novel method dedicated to generating interactive 3D scenes characterized by realistic layouts, articulated objects, and rich physical interactivity tailored for embodied agents. Based on a conditional diffusion model for capturing scene layouts, we devise novel physics- and interactivity-based guidance mechanisms that integrate constraints from object collision, room layout, and object reachability. Through extensive experiments, we demonstrate that PhyScene effectively leverages these guidance functions for physically interactable scene synthesis, outperforming existing state-of-the-art scene synthesis methods by a large margin. Our findings suggest that the scenes generated by PhyScene hold considerable potential for facilitating diverse skill acquisition among agents within interactive environments, thereby catalyzing further advancements in embodied AI research. Project website: http://physcene.github.io.
- Abstract(参考訳): 近年、Embodied Artificial Intelligence(EAI)研究が発展し、高品質で大規模な対話型シーン生成への需要が高まっている。
シーン合成における従来の手法は、生成されたシーンの自然性やリアリズムを優先してきたが、シーンの物理的妥当性と相互作用性はほとんど解明されていない。
この格差に対処するために,現実的なレイアウト,明瞭なオブジェクト,具体化されたエージェントに適したリッチな物理的相互作用を特徴付けるインタラクティブな3Dシーンを生成するPhySceneを紹介した。
シーンレイアウトをキャプチャする条件付き拡散モデルに基づいて,物体衝突,室内レイアウト,物体到達性といった制約を統合する物理および対話性に基づくガイダンス機構を考案する。
大規模な実験を通じて、PhySceneはこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に活用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示す。
このことから,PhySceneが生み出したシーンは,対話型環境におけるエージェント間の多様なスキル獲得を促進する上で大きな可能性を秘めていることが示唆された。
プロジェクトウェブサイト: http://physcene.github.io
関連論文リスト
- Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning [34.00107506891627]
テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。
本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。
我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2023-03-16T15:44:15Z) - Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in
Complex 3D Environments [11.87902527509297]
複雑な屋内環境下での自然および可塑性な長期的人間の運動を合成するために,LAMA, Locomotion-Action-Manipulationを提案する。
従来の3Dシーンをスキャンして「ペア化」する手法とは異なり、人間のモーションキャプチャーデータを合成にのみ使用することにより、テスト時間最適化として問題を定式化する。
論文 参考訳(メタデータ) (2023-01-09T18:59:16Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。
この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。
実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-05-25T18:20:01Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。