論文の概要: A Recipe for Generating 3D Worlds From a Single Image
- arxiv url: http://arxiv.org/abs/2503.16611v1
- Date: Thu, 20 Mar 2025 18:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:49.307912
- Title: A Recipe for Generating 3D Worlds From a Single Image
- Title(参考訳): 1枚の画像から3次元世界を生成するためのレシピ
- Authors: Katja Schwarz, Denys Rozumnyi, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder,
- Abstract要約: 一つの画像から没入型3D世界を生成するためのレシピを提案する。
このアプローチは最小限のトレーニングを必要とし、既存の生成モデルを使用する。
合成画像と実画像の両方でテストした結果,VRディスプレイに適した高品質な3D環境が得られた。
- 参考スコア(独自算出の注目度): 28.396381735501524
- License:
- Abstract: We introduce a recipe for generating immersive 3D worlds from a single image by framing the task as an in-context learning problem for 2D inpainting models. This approach requires minimal training and uses existing generative models. Our process involves two steps: generating coherent panoramas using a pre-trained diffusion model and lifting these into 3D with a metric depth estimator. We then fill unobserved regions by conditioning the inpainting model on rendered point clouds, requiring minimal fine-tuning. Tested on both synthetic and real images, our method produces high-quality 3D environments suitable for VR display. By explicitly modeling the 3D structure of the generated environment from the start, our approach consistently outperforms state-of-the-art, video synthesis-based methods along multiple quantitative image quality metrics. Project Page: https://katjaschwarz.github.io/worlds/
- Abstract(参考訳): 本研究では,1つの画像から没入型3D世界を生成するためのレシピを提案する。
このアプローチは最小限のトレーニングを必要とし、既存の生成モデルを使用する。
本プロセスでは, 事前学習した拡散モデルを用いてコヒーレントパノラマを発生させ, 計量深度推定器を用いて3次元に引き上げる。
次に、描画された点雲に塗装モデルを条件付け、最小限の微調整を必要とすることにより、観測されていない領域を埋める。
合成画像と実画像の両方でテストした結果,VRディスプレイに適した高品質な3D環境が得られた。
生成した環境の3次元構造を最初から明示的にモデル化することにより,複数の定量的画像品質指標を用いて,最先端の映像合成手法を一貫して上回ります。
Project Page: https://katjaschwarz.github.io/worlds/
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から前方の3Dシーンを生成する技術である。
本研究では, 初期現場推定値に条件付き2次元塗布拡散モデルを利用して, 3次元蒸留における未知領域の低分散監視を行う。
特に,ビデオやマルチビューのデータを必要とせず,複雑なレイアウトで様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - TextMesh: Generation of Realistic 3D Meshes From Text Prompts [56.2832907275291]
リアルな3Dメッシュを生成するための新しい手法を提案する。
この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。
論文 参考訳(メタデータ) (2023-04-24T20:29:41Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - Texture Generation Using Graph Generative Adversarial Network And
Differentiable Rendering [0.6439285904756329]
既存の3次元メッシュモデルのための新しいテクスチャ合成は、シミュレータのフォトリアルアセット生成に向けた重要なステップである。
既存の手法は、カメラの観点からの3次元空間の投影である2次元画像空間で本質的に機能する。
本稿では,BlenderやUnreal Engineといったツールを用いて,与えられた3Dメッシュモデルに直接統合可能なテクスチャを生成可能なGGAN(Graph Generative Adversarial Network)という新しいシステムを提案する。
論文 参考訳(メタデータ) (2022-06-17T04:56:03Z) - Leveraging 2D Data to Learn Textured 3D Mesh Generation [33.32377849866736]
テクスチャ化された3Dメッシュの最初の生成モデルを示す。
我々は、各画像を3Dフォアグラウンドオブジェクトとしてモデル化することで、画像の分布を説明するためにモデルを訓練する。
レンダリングされたメッシュを生成して、トレーニングセットと同じようなイメージを生成する。
論文 参考訳(メタデータ) (2020-04-08T18:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。