Fugu-MT 論文翻訳(概要): PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

論文の概要: PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

arxiv url: http://arxiv.org/abs/2404.09465v2
Date: Wed, 10 Jul 2024 02:43:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 21:10:19.233801
Title: PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI
Title（参考訳）: PhyScene:体操AIのための物理的に相互作用可能な3Dシーン合成
Authors: Yandan Yang, Baoxiong Jia, Peiyuan Zhi, Siyuan Huang,
Abstract要約: PhySceneは、リアルなレイアウト、明瞭なオブジェクト、エンボディエージェントに適したリッチな物理的相互作用によって特徴付けられるインタラクティブな3Dシーンを生成するための方法である。我々はPhySceneがこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に利用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示した。
参考スコア（独自算出の注目度）: 38.03745740636854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With recent developments in Embodied Artificial Intelligence (EAI) research, there has been a growing demand for high-quality, large-scale interactive scene generation. While prior methods in scene synthesis have prioritized the naturalness and realism of the generated scenes, the physical plausibility and interactivity of scenes have been largely left unexplored. To address this disparity, we introduce PhyScene, a novel method dedicated to generating interactive 3D scenes characterized by realistic layouts, articulated objects, and rich physical interactivity tailored for embodied agents. Based on a conditional diffusion model for capturing scene layouts, we devise novel physics- and interactivity-based guidance mechanisms that integrate constraints from object collision, room layout, and object reachability. Through extensive experiments, we demonstrate that PhyScene effectively leverages these guidance functions for physically interactable scene synthesis, outperforming existing state-of-the-art scene synthesis methods by a large margin. Our findings suggest that the scenes generated by PhyScene hold considerable potential for facilitating diverse skill acquisition among agents within interactive environments, thereby catalyzing further advancements in embodied AI research. Project website: http://physcene.github.io.
Abstract（参考訳）: 近年、Embodied Artificial Intelligence(EAI)研究が発展し、高品質で大規模な対話型シーン生成への需要が高まっている。シーン合成における従来の手法は、生成されたシーンの自然性やリアリズムを優先してきたが、シーンの物理的妥当性と相互作用性はほとんど解明されていない。この格差に対処するために,現実的なレイアウト,明瞭なオブジェクト,具体化されたエージェントに適したリッチな物理的相互作用を特徴付けるインタラクティブな3Dシーンを生成するPhySceneを紹介した。シーンレイアウトをキャプチャする条件付き拡散モデルに基づいて,物体衝突,室内レイアウト,物体到達性といった制約を統合する物理および対話性に基づくガイダンス機構を考案する。大規模な実験を通じて、PhySceneはこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に活用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示す。このことから,PhySceneが生み出したシーンは,対話型環境におけるエージェント間の多様なスキル獲得を促進する上で大きな可能性を秘めていることが示唆された。プロジェクトウェブサイト: http://physcene.github.io

関連論文リスト

Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。 VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文参考訳（メタデータ） (2025-06-25T16:40:17Z)
HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文参考訳（メタデータ） (2025-06-02T12:08:08Z)
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文参考訳（メタデータ） (2025-04-17T16:33:39Z)
Towards Affordance-Aware Articulation Synthesis for Rigged Objects [82.08199697616917]
A3Synは、インターネットから取得した任意の領域とオープン領域を持つオブジェクトの調音パラメータを合成する。 A3Synは安定な収束性を持ち、数分で完成し、電球内のオブジェクトリグとシーンの異なる組み合わせで可算な余裕を合成する。
論文参考訳（メタデータ） (2025-01-21T18:59:59Z)
OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文参考訳（メタデータ） (2024-11-27T10:13:35Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。人体全体の動きや部分レベルの物体の動きを複雑に捉えます。本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-03-13T15:45:04Z)
InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文参考訳（メタデータ） (2023-08-31T17:59:08Z)
Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship Reasoning [34.00107506891627]
テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
論文参考訳（メタデータ） (2023-03-16T15:44:15Z)
Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in Complex 3D Environments [11.87902527509297]
複雑な屋内環境下での自然および可塑性な長期的人間の運動を合成するために,LAMA, Locomotion-Action-Manipulationを提案する。従来の3Dシーンをスキャンして「ペア化」する手法とは異なり、人間のモーションキャプチャーデータを合成にのみ使用することにより、テスト時間最適化として問題を定式化する。
論文参考訳（メタデータ） (2023-01-09T18:59:16Z)
Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文参考訳（メタデータ） (2022-07-26T11:37:44Z)
Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文参考訳（メタデータ） (2022-05-25T18:20:01Z)
PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文参考訳（メタデータ） (2020-08-12T21:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。