論文の概要: LDM3D: Latent Diffusion Model for 3D
- arxiv url: http://arxiv.org/abs/2305.10853v1
- Date: Thu, 18 May 2023 10:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:56:06.689972
- Title: LDM3D: Latent Diffusion Model for 3D
- Title(参考訳): LDM3D:3次元の潜在拡散モデル
- Authors: Gabriela Ben Melech Stan, Diana Wofk, Scottie Fox, Alex Redden, Will
Saxton, Jean Yu, Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias
Muller, Vasudev Lal
- Abstract要約: 本研究では,与えられたテキストプロンプトから画像と深度マップデータを生成する3D(LDM3D)の潜時拡散モデルを提案する。
また、生成したRGB画像と深度マップを用いて、没入的でインタラクティブな360度ビュー体験を作成するDepthFusionというアプリケーションを開発した。
- 参考スコア(独自算出の注目度): 5.185393944663932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research paper proposes a Latent Diffusion Model for 3D (LDM3D) that
generates both image and depth map data from a given text prompt, allowing
users to generate RGBD images from text prompts. The LDM3D model is fine-tuned
on a dataset of tuples containing an RGB image, depth map and caption, and
validated through extensive experiments. We also develop an application called
DepthFusion, which uses the generated RGB images and depth maps to create
immersive and interactive 360-degree-view experiences using TouchDesigner. This
technology has the potential to transform a wide range of industries, from
entertainment and gaming to architecture and design. Overall, this paper
presents a significant contribution to the field of generative AI and computer
vision, and showcases the potential of LDM3D and DepthFusion to revolutionize
content creation and digital experiences. A short video summarizing the
approach can be found at https://t.ly/tdi2.
- Abstract(参考訳): 本稿では,テキストプロンプトから画像と深度マップデータの両方を生成する3d (ldm3d) のための潜在拡散モデルを提案し,テキストプロンプトからrgbd画像を生成する。
LDM3Dモデルは、RGB画像、深さマップ、キャプションを含むタプルのデータセット上で微調整され、広範な実験によって検証される。
また、生成したRGB画像と深度マップを用いて、TouchDesignerを使って没入型でインタラクティブな360度ビューエクスペリエンスを作成するDepthFusionというアプリケーションを開発した。
このテクノロジーは、エンターテイメントやゲームからアーキテクチャやデザインまで、幅広い産業を変革する可能性がある。
本稿では、生成AIとコンピュータビジョンの分野における重要な貢献を示し、コンテンツ制作とデジタル体験に革命をもたらすLDM3DとDepthFusionの可能性を示す。
このアプローチを要約した短いビデオは、https://t.ly/tdi2で見ることができる。
関連論文リスト
- OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images [17.344430840048094]
OpenDlignはオープンワールドの3D表現を学ぶための新しいフレームワークだ。
これは、点雲投影深度マップから生成された深度に整合した画像を利用する。
既存のベンチマークでは、ゼロショットと少数ショットの3Dタスクで大幅に上回っている。
論文 参考訳(メタデータ) (2024-04-25T11:53:36Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - 3D Scene Creation and Rendering via Rough Meshes: A Lighting Transfer Avenue [49.62477229140788]
本稿では,再構成された3Dモデルを3Dシーン作成やレンダリングなどの実用的な3Dモデリングパイプラインに柔軟に統合する方法について述べる。
我々はNFRとPBRを橋渡しする照明伝達ネットワーク(LighTNet)を提案する。
論文 参考訳(メタデータ) (2022-11-27T13:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。