Fugu-MT 論文翻訳(概要): Compositional 3D Scene Generation using Locally Conditioned Diffusion

論文の概要: Compositional 3D Scene Generation using Locally Conditioned Diffusion

arxiv url: http://arxiv.org/abs/2303.12218v1
Date: Tue, 21 Mar 2023 22:37:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 15:56:13.641319
Title: Compositional 3D Scene Generation using Locally Conditioned Diffusion
Title（参考訳）: 局所拡散を用いた合成3次元シーン生成
Authors: Ryan Po, Gordon Wetzstein
Abstract要約: 合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
参考スコア（独自算出の注目度）: 49.5784841881488
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Designing complex 3D scenes has been a tedious, manual process requiring domain expertise. Emerging text-to-3D generative models show great promise for making this task more intuitive, but existing approaches are limited to object-level generation. We introduce \textbf{locally conditioned diffusion} as an approach to compositional scene diffusion, providing control over semantic parts using text prompts and bounding boxes while ensuring seamless transitions between these parts. We demonstrate a score distillation sampling--based text-to-3D synthesis pipeline that enables compositional 3D scene generation at a higher fidelity than relevant baselines.
Abstract（参考訳）: 複雑な3dシーンを設計するのは、ドメインの専門知識を必要とする面倒な作業でした。新たなtext-to-3d生成モデルでは、このタスクをより直感的にすることが期待できるが、既存のアプローチはオブジェクトレベル生成に限定されている。合成シーン拡散へのアプローチとして,テキストプロンプトとバウンディングボックスを用いて意味部分を制御し,これらの部分間のシームレスな遷移を保証する。スコア蒸留サンプリングに基づくテキストから3次元合成パイプラインを実演し,適切なベースラインよりも高い忠実度で構成的3次元シーン生成を実現する。

関連論文リスト

Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文参考訳（メタデータ） (2025-01-05T12:20:13Z)
SceneFactor: Factored Latent 3D Diffusion for Controllable 3D Scene Generation [44.354071773885735]
SceneFactorは、大規模な3Dシーン生成のための拡散ベースのアプローチである。制御可能な生成と手間のかかる編集を可能にする。提案手法は,効率的な編集が可能な高忠実度3次元シーン合成を実現する。
論文参考訳（メタデータ） (2024-12-02T18:47:41Z)
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文参考訳（メタデータ） (2024-10-11T17:26:00Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。 GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文参考訳（メタデータ） (2024-02-11T13:40:08Z)
InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文参考訳（メタデータ） (2024-02-07T10:09:00Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文参考訳（メタデータ） (2023-11-29T18:55:38Z)
3D Scene Diffusion Guidance using Scene Graphs [3.207455883863626]
本研究では,シーングラフを用いた3次元シーン拡散誘導手法を提案する。シーングラフが提供する相対的空間情報を活用するため,我々はデノナイジングネットワーク内の関係グラフ畳み込みブロックを利用する。
論文参考訳（メタデータ） (2023-08-08T06:16:37Z)
ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文参考訳（メタデータ） (2023-06-06T17:59:10Z)
CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout [13.364394556439992]
テキストから3Dの形式は、AR/VRのための編集可能な3Dシーンを作成する上で重要な役割を果たす。最近の進歩は、テキストから3Dオブジェクト生成のための事前訓練された拡散モデルとニューラルラジアンス場(NeRF)を融合させる可能性を示している。編集可能な3Dシーンレイアウトとオブジェクト固有およびシーンワイドガイダンス機構を統合することで,CompoNeRFと呼ばれる新しいフレームワークを提案する。本フレームワークは,マルチビューCLIPスコア測定によって最大54%の改善を実現している。
論文参考訳（メタデータ） (2023-03-24T07:37:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。