論文の概要: Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting
- arxiv url: http://arxiv.org/abs/2404.19758v1
- Date: Tue, 30 Apr 2024 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:16:41.262990
- Title: Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting
- Title(参考訳): Invisible Stitch:Depth Inpaintingによる滑らかな3Dシーンの生成
- Authors: Paul Engstler, Andrea Vedaldi, Iro Laina, Christian Rupprecht,
- Abstract要約: 本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
- 参考スコア(独自算出の注目度): 75.7154104065613
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: 3D scene generation has quickly become a challenging new research direction, fueled by consistent improvements of 2D generative diffusion models. Most prior work in this area generates scenes by iteratively stitching newly generated frames with existing geometry. These works often depend on pre-trained monocular depth estimators to lift the generated images into 3D, fusing them with the existing scene representation. These approaches are then often evaluated via a text metric, measuring the similarity between the generated images and a given text prompt. In this work, we make two fundamental contributions to the field of 3D scene generation. First, we note that lifting images to 3D with a monocular depth estimation model is suboptimal as it ignores the geometry of the existing scene. We thus introduce a novel depth completion model, trained via teacher distillation and self-training to learn the 3D fusion process, resulting in improved geometric coherence of the scene. Second, we introduce a new benchmarking scheme for scene generation methods that is based on ground truth geometry, and thus measures the quality of the structure of the scene.
- Abstract(参考訳): 3次元シーン生成は、2次元生成拡散モデルの一貫した改善により、急速に挑戦的な新しい研究方向となった。
この領域における多くの先行研究は、既存の幾何学で新しく生成されたフレームを反復的に縫い合わせることによってシーンを生成する。
これらの作品は、既存のシーン表現と融合して生成された画像を3Dに上げるために、事前訓練された単眼深度推定器に依存することが多い。
これらのアプローチはテキストメトリックを通じてしばしば評価され、生成された画像と与えられたテキストプロンプトの類似度を測定する。
本研究では,3次元シーン生成の分野に2つの基本的な貢献を行う。
まず,モノクロ深度推定モデルを用いて3Dに画像を持ち上げることは,既存のシーンの形状を無視するため,最適ではないことに注意する。
そこで我々は,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを導入し,その結果,シーンの幾何的コヒーレンスが改善された。
第2に,実測に基づくシーン生成手法の新たなベンチマーク手法を導入し,シーンの構造の質を計測する。
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - Neural 3D Scene Reconstruction from Multiple 2D Images without 3D
Supervision [41.20504333318276]
平面制約下でのスパース深度を用いてシーンを3次元の監督なしに再構成する新しいニューラル再構成法を提案する。
シーンを表すために,符号付き距離関数場,色場,確率場を導入する。
我々は、これらのフィールドを最適化し、2D画像で識別可能な光線マーキングを監督することでシーンを再構築する。
論文 参考訳(メタデータ) (2023-06-30T13:30:48Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - Unsupervised High-Fidelity Facial Texture Generation and Reconstruction [20.447635896077454]
本稿では,タスクとテクスチャの生成,高忠実度テクスチャの回復という新たな統合パイプラインを提案する。
テクスチャモデルでは,テクスチャマップのスキャンとは対照的に,自然画像から教師なしでテクスチャモデルを学習する。
正確な3DMMフィッティングを適用することで、モデル化したテクスチャを合成生成した背景画像にシームレスに統合することができる。
論文 参考訳(メタデータ) (2021-10-10T10:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。