Fugu-MT 論文翻訳(概要): RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

論文の概要: RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

arxiv url: http://arxiv.org/abs/2404.07199v1
Date: Wed, 10 Apr 2024 17:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 14:01:43.063400
Title: RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion
Title（参考訳）: RealmDreamer: ペイントと深さ拡散によるテキスト駆動型3Dシーン生成
Authors: Jaidev Shriram, Alex Trevithick, Lingjie Liu, Ravi Ramamoorthi,
Abstract要約: RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
参考スコア（独自算出の注目度）: 39.03289977892935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce RealmDreamer, a technique for generation of general forward-facing 3D scenes from text descriptions. Our technique optimizes a 3D Gaussian Splatting representation to match complex text prompts. We initialize these splats by utilizing the state-of-the-art text-to-image generators, lifting their samples into 3D, and computing the occlusion volume. We then optimize this representation across multiple views as a 3D inpainting task with image-conditional diffusion models. To learn correct geometric structure, we incorporate a depth diffusion model by conditioning on the samples from the inpainting model, giving rich geometric structure. Finally, we finetune the model using sharpened samples from image generators. Notably, our technique does not require video or multi-view data and can synthesize a variety of high-quality 3D scenes in different styles, consisting of multiple objects. Its generality additionally allows 3D synthesis from a single image.
Abstract（参考訳）: 本稿では,テキスト記述から一般的な前方3Dシーンを生成する手法であるRealmDreamerを紹介する。本手法は,複雑なテキストプロンプトに適合する3次元ガウス分割表現を最適化する。我々は、最先端のテキスト・ツー・イメージ・ジェネレータを利用し、サンプルを3D化してオクルージョン体積を計算することで、これらのスプラッターを初期化する。次に、この表現を画像条件拡散モデルを用いた3次元インペイントタスクとして、複数のビューにまたがって最適化する。正確な幾何構造を学習するために、塗布モデルから試料を条件付けして深度拡散モデルを組み込むことにより、リッチな幾何学的構造を与える。最後に、画像生成装置のシャープなサンプルを用いてモデルを微調整する。特に,本手法は映像や多視点データを必要としないため,複数のオブジェクトからなる様々なスタイルの高品質な3Dシーンを合成することができる。さらにその一般性は、単一の画像から3D合成を可能にする。

関連論文リスト

EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
A Recipe for Generating 3D Worlds From a Single Image [28.396381735501524]
一つの画像から没入型3D世界を生成するためのレシピを提案する。このアプローチは最小限のトレーニングを必要とし、既存の生成モデルを使用する。合成画像と実画像の両方でテストした結果,VRディスプレイに適した高品質な3D環境が得られた。
論文参考訳（メタデータ） (2025-03-20T18:06:12Z)
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文参考訳（メタデータ） (2024-09-05T17:21:54Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
EucliDreamer: Fast and High-Quality Texturing for 3D Models with Depth-Conditioned Stable Diffusion [5.158983929861116]
EucliDreamerは、テキストとプロンプトが与えられた3次元モデルのテクスチャを生成するための、シンプルで効果的な方法である。テクスチャは3次元表面上の暗黙の関数としてパラメータ化され、スコア蒸留サンプリング(SDS)プロセスと微分レンダリングで最適化される。
論文参考訳（メタデータ） (2024-04-16T04:44:16Z)
3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。 3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文参考訳（メタデータ） (2024-03-04T17:26:28Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。 PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文参考訳（メタデータ） (2023-12-14T16:04:34Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。 2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文参考訳（メタデータ） (2023-11-09T15:51:27Z)
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文参考訳（メタデータ） (2023-10-20T19:15:29Z)
CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文参考訳（メタデータ） (2023-03-21T17:59:02Z)
Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文参考訳（メタデータ） (2023-03-21T16:21:02Z)
Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文参考訳（メタデータ） (2022-12-28T18:23:47Z)
DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文参考訳（メタデータ） (2022-09-29T17:50:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。