論文の概要: PhiP-G: Physics-Guided Text-to-3D Compositional Scene Generation
- arxiv url: http://arxiv.org/abs/2502.00708v1
- Date: Sun, 02 Feb 2025 07:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:29.351495
- Title: PhiP-G: Physics-Guided Text-to-3D Compositional Scene Generation
- Title(参考訳): PhiP-G:物理誘導型テキストから3次元合成シーン生成
- Authors: Qixuan Li, Chao Wang, Zongjin He, Yan Peng,
- Abstract要約: 合成シーン生成のための新しいフレームワークPhiP-Gを提案する。
PhiP-Gは、世界モデルに基づくレイアウトガイダンスと生成技術をシームレスに統合する。
実験により、PhiP-Gは合成シーンの生成品質と物理的合理性を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 5.554872561486615
- License:
- Abstract: Text-to-3D asset generation has achieved significant optimization under the supervision of 2D diffusion priors. However, when dealing with compositional scenes, existing methods encounter several challenges: 1). failure to ensure that composite scene layouts comply with physical laws; 2). difficulty in accurately capturing the assets and relationships described in complex scene descriptions; 3). limited autonomous asset generation capabilities among layout approaches leveraging large language models (LLMs). To avoid these compromises, we propose a novel framework for compositional scene generation, PhiP-G, which seamlessly integrates generation techniques with layout guidance based on a world model. Leveraging LLM-based agents, PhiP-G analyzes the complex scene description to generate a scene graph, and integrating a multimodal 2D generation agent and a 3D Gaussian generation method for targeted assets creation. For the stage of layout, PhiP-G employs a physical pool with adhesion capabilities and a visual supervision agent, forming a world model for layout prediction and planning. Extensive experiments demonstrate that PhiP-G significantly enhances the generation quality and physical rationality of the compositional scenes. Notably, PhiP-G attains state-of-the-art (SOTA) performance in CLIP scores, achieves parity with the leading methods in generation quality as measured by the T$^3$Bench, and improves efficiency by 24x.
- Abstract(参考訳): テキスト・ツー・3Dアセット生成は2次元拡散先行の監督の下で大幅に最適化されている。
しかし、構成シーンを扱う場合、既存の手法にはいくつかの課題がある。
複合シーンレイアウトが物理法則に従っていることを保証することができないこと。
複雑な場面の記述に記載された資産及び関係を正確に把握することの難しさ。
大規模言語モデル(LLM)を活用したレイアウトアプローチにおける、限られた自律的な資産生成機能。
これらの妥協を回避するため,世界モデルに基づくレイアウト誘導と生成手法をシームレスに統合した合成シーン生成のための新しいフレームワークPhiP-Gを提案する。
PhiP-G は LLM ベースのエージェントを活用し,複雑なシーン記述を分析してシーングラフを生成し,マルチモーダル2D 生成エージェントと 3D ガウス生成手法を統合する。
レイアウトの段階では、PhiP-Gは粘着機能を備えた物理プールと視覚監視エージェントを使用し、レイアウト予測と計画のための世界モデルを形成する。
広汎な実験により、PhiP-Gは合成シーンの生成品質と物理的合理性を大幅に向上させることが示された。
特に、PhiP-GはCLIPスコアにおける最先端(SOTA)性能を達成し、T$^3$Benchで測定された生成品質のリードメソッドと同等に達成し、効率を24倍に向上させる。
関連論文リスト
- LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation [5.424048651554831]
テキストによる高品質で物理的に一貫した構成シーン生成を容易にするために,3Dガウススプラッティング(3DGS)を利用するフレームワークを提案する。
具体的には、テキストプロンプトが与えられた場合、シーングラフに変換し、初期構成型3Dガウスの密度とレイアウトを適応的に調整する。
シーングラフから指示された依存関係を抽出することにより、現実性と柔軟性の両方を確保するために、物理的およびレイアウトエネルギーを調整します。
論文 参考訳(メタデータ) (2025-02-04T02:51:37Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians [97.15119679296954]
CompGS は 3D Gaussian Splatting (GS) を用いた,効率的なテキストから3Dコンテンツ生成のための新しい生成フレームワークである。
CompGSは簡単に3D編集に拡張でき、シーン生成を容易にする。
論文 参考訳(メタデータ) (2024-10-28T04:35:14Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - SceneX: Procedural Controllable Large-scale Scene Generation [52.4743878200172]
本稿では,デザイナーのテキスト記述に従って高品質な手続きモデルを自動生成するSceneXを紹介する。
提案手法はPCGHubとPCGPlannerの2つのコンポーネントからなる。
後者の目的は、Blenderがユーザの指示によって誘導される制御可能で正確な3Dアセットを生成するために実行可能なアクションを生成することである。
論文 参考訳(メタデータ) (2024-03-23T03:23:29Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。
ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文 参考訳(メタデータ) (2023-11-29T18:55:38Z) - Structural Multiplane Image: Bridging Neural View Synthesis and 3D
Reconstruction [39.89856628467095]
平面構造が3次元シーンを簡潔に近似する構造的MPI(S-MPI)を導入する。
S-MPIを適用するという直感と要求にもかかわらず、RGBA層と平面の両方の高忠実度近似のような大きな課題が導入されている。
提案手法は,従来のMPIを用いたビュー合成法と平面再構成法より優れていた。
論文 参考訳(メタデータ) (2023-03-10T14:18:40Z) - PEGG-Net: Pixel-Wise Efficient Grasp Generation in Complex Scenes [7.907697609965681]
本研究では,既存の平面グリップ推定アルゴリズムについて検討し,複雑な場面における課題を解析する。
複雑な場面で把握する問題に対処するため,Pixel-wise Efficient Grasp Generation Network (PEGG-Net) を設計する。
PEGG-Netはコーネルデータセット(98.9%)の最先端性能とジャカードデータセット(93.8%)の2番目に高いパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2022-03-30T13:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。