論文の概要: Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2303.11989v2
- Date: Sun, 10 Sep 2023 15:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:01:52.804484
- Title: Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models
- Title(参考訳): Text2Room:2次元テキスト・画像モデルからテクスチャ付き3Dメッシュを抽出する
- Authors: Lukas H\"ollein, Ang Cao, Andrew Owens, Justin Johnson, Matthias
Nie{\ss}ner
- Abstract要約: 入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
- 参考スコア(独自算出の注目度): 21.622420436349245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Text2Room, a method for generating room-scale textured 3D meshes
from a given text prompt as input. To this end, we leverage pre-trained 2D
text-to-image models to synthesize a sequence of images from different poses.
In order to lift these outputs into a consistent 3D scene representation, we
combine monocular depth estimation with a text-conditioned inpainting model.
The core idea of our approach is a tailored viewpoint selection such that the
content of each image can be fused into a seamless, textured 3D mesh. More
specifically, we propose a continuous alignment strategy that iteratively fuses
scene frames with the existing geometry to create a seamless mesh. Unlike
existing works that focus on generating single objects or zoom-out trajectories
from text, our method generates complete 3D scenes with multiple objects and
explicit 3D geometry. We evaluate our approach using qualitative and
quantitative metrics, demonstrating it as the first method to generate
room-scale 3D geometry with compelling textures from only text as input.
- Abstract(参考訳): 入力としてテキストプロンプトから部屋規模のテクスチャ3Dメッシュを生成するText2Roomを提案する。
この目的のために,事前学習した2次元テキスト対画像モデルを用いて,ポーズの異なる画像のシーケンスを合成する。
これらの出力を一貫した3次元シーン表現に持ち上げるために,単眼深度推定とテキスト条件付きインペインティングモデルを組み合わせた。
このアプローチの核となる考え方は、各画像の内容がシームレスでテクスチャのついた3dメッシュに融合できるように、視点選択をカスタマイズすることです。
具体的には、シーンフレームを既存の幾何学と反復的に融合させてシームレスなメッシュを作成する継続的アライメント戦略を提案する。
テキストから1つのオブジェクトやズームアウトトラジェクトリを生成する既存の作業とは異なり、本手法は複数のオブジェクトと明示的な3D形状を持つ完全な3Dシーンを生成する。
本手法を質的・定量的な指標を用いて評価し,テキストのみを入力とし,部屋スケールの3次元形状を生成する最初の手法として実証した。
関連論文リスト
- Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - EucliDreamer: Fast and High-Quality Texturing for 3D Models with Depth-Conditioned Stable Diffusion [5.158983929861116]
EucliDreamerは、テキストとプロンプトが与えられた3次元モデルのテクスチャを生成するための、シンプルで効果的な方法である。
テクスチャは3次元表面上の暗黙の関数としてパラメータ化され、スコア蒸留サンプリング(SDS)プロセスと微分レンダリングで最適化される。
論文 参考訳(メタデータ) (2024-04-16T04:44:16Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Consistent Mesh Diffusion [8.318075237885857]
UVパラメータ化による3Dメッシュを前提として,テキストプロンプトからテクスチャを生成する新しいアプローチを提案する。
当社のアプローチは、30メッシュを含むデータセット上で、メッシュ毎に約5分を要することを実証しています。
論文 参考訳(メタデータ) (2023-12-01T23:25:14Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - TEXTure: Text-Guided Texturing of 3D Shapes [71.13116133846084]
TEXTureは,テクスチャのテクスチャのテクスチャの編集,編集,転送を行う新しい方法である。
表面テクスチャを明示することなくシームレスな3次元テクスチャを生成する3次元マップ分割プロセスを定義する。
論文 参考訳(メタデータ) (2023-02-03T13:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。