論文の概要: LDM3D-VR: Latent Diffusion Model for 3D VR
- arxiv url: http://arxiv.org/abs/2311.03226v1
- Date: Mon, 6 Nov 2023 16:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:48:40.435077
- Title: LDM3D-VR: Latent Diffusion Model for 3D VR
- Title(参考訳): LDM3D-VR:3DVRにおける潜在拡散モデル
- Authors: Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng,
Zhipeng Cai, Michael Paulitsch, Vasudev Lal
- Abstract要約: LDM3D-VRは,仮想現実開発をターゲットとした拡散モデルスイートである。
これらのモデルは、テキストプロンプトに基づくパノラマRGBDの生成と、高解像度RGBDへの低解像度入力のアップスケーリングを可能にする。
我々のモデルは、パノラマ/高解像度RGB画像、深度マップ、キャプションを含むデータセット上の既存の事前訓練モデルから微調整されている。
- 参考スコア(独自算出の注目度): 10.418359798656512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent diffusion models have proven to be state-of-the-art in the creation
and manipulation of visual outputs. However, as far as we know, the generation
of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite
of diffusion models targeting virtual reality development that includes
LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD
based on textual prompts and the upscaling of low-resolution inputs to
high-resolution RGBD, respectively. Our models are fine-tuned from existing
pretrained models on datasets containing panoramic/high-resolution RGB images,
depth maps and captions. Both models are evaluated in comparison to existing
related methods.
- Abstract(参考訳): 潜在拡散モデルは視覚出力の生成と操作において最先端であることが証明されている。
しかし、我々が知る限り、rgbと共同で深度マップを生成することは、まだ限られている。
我々は, LDM3D-pano と LDM3D-SR を含む仮想現実開発を対象とした拡散モデルである LDM3D-VR を紹介する。
これらのモデルは、テキストプロンプトに基づくパノラマrgbdの生成と、高分解能rgbdへの低解像度入力のスケールアップを可能にする。
我々のモデルは、パノラマ/高解像度RGB画像、深度マップ、キャプションを含むデータセット上の既存の事前訓練モデルから微調整されている。
どちらのモデルも既存の手法と比較して評価される。
関連論文リスト
- MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - LDM3D: Latent Diffusion Model for 3D [5.185393944663932]
本研究では,与えられたテキストプロンプトから画像と深度マップデータを生成する3D(LDM3D)の潜時拡散モデルを提案する。
また、生成したRGB画像と深度マップを用いて、没入的でインタラクティブな360度ビュー体験を作成するDepthFusionというアプリケーションを開発した。
論文 参考訳(メタデータ) (2023-05-18T10:15:06Z) - DGGAN: Depth-image Guided Generative Adversarial Networks for
Disentangling RGB and Depth Images in 3D Hand Pose Estimation [33.23818997206978]
RGB画像から3Dハンドポーズを推定することは、広範囲の潜在的な応用に不可欠であるが、RGB画像からの深部情報の推測においてかなりの曖昧さのために困難である。
本稿では,DGGAN(Depth-image Guided GAN)と呼ばれる条件付き生成対向ネットワーク(GAN)モデルを提案する。
DGGANにより合成された深度マップは, 目的推定モデルの正規化に極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-12-06T07:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。