論文の概要: LDM3D: Latent Diffusion Model for 3D
- arxiv url: http://arxiv.org/abs/2305.10853v1
- Date: Thu, 18 May 2023 10:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:56:06.689972
- Title: LDM3D: Latent Diffusion Model for 3D
- Title(参考訳): LDM3D:3次元の潜在拡散モデル
- Authors: Gabriela Ben Melech Stan, Diana Wofk, Scottie Fox, Alex Redden, Will
Saxton, Jean Yu, Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias
Muller, Vasudev Lal
- Abstract要約: 本研究では,与えられたテキストプロンプトから画像と深度マップデータを生成する3D(LDM3D)の潜時拡散モデルを提案する。
また、生成したRGB画像と深度マップを用いて、没入的でインタラクティブな360度ビュー体験を作成するDepthFusionというアプリケーションを開発した。
- 参考スコア(独自算出の注目度): 5.185393944663932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research paper proposes a Latent Diffusion Model for 3D (LDM3D) that
generates both image and depth map data from a given text prompt, allowing
users to generate RGBD images from text prompts. The LDM3D model is fine-tuned
on a dataset of tuples containing an RGB image, depth map and caption, and
validated through extensive experiments. We also develop an application called
DepthFusion, which uses the generated RGB images and depth maps to create
immersive and interactive 360-degree-view experiences using TouchDesigner. This
technology has the potential to transform a wide range of industries, from
entertainment and gaming to architecture and design. Overall, this paper
presents a significant contribution to the field of generative AI and computer
vision, and showcases the potential of LDM3D and DepthFusion to revolutionize
content creation and digital experiences. A short video summarizing the
approach can be found at https://t.ly/tdi2.
- Abstract(参考訳): 本稿では,テキストプロンプトから画像と深度マップデータの両方を生成する3d (ldm3d) のための潜在拡散モデルを提案し,テキストプロンプトからrgbd画像を生成する。
LDM3Dモデルは、RGB画像、深さマップ、キャプションを含むタプルのデータセット上で微調整され、広範な実験によって検証される。
また、生成したRGB画像と深度マップを用いて、TouchDesignerを使って没入型でインタラクティブな360度ビューエクスペリエンスを作成するDepthFusionというアプリケーションを開発した。
このテクノロジーは、エンターテイメントやゲームからアーキテクチャやデザインまで、幅広い産業を変革する可能性がある。
本稿では、生成AIとコンピュータビジョンの分野における重要な貢献を示し、コンテンツ制作とデジタル体験に革命をもたらすLDM3DとDepthFusionの可能性を示す。
このアプローチを要約した短いビデオは、https://t.ly/tdi2で見ることができる。
関連論文リスト
- MTFusion: Reconstructing Any 3D Object from Single Image Using Multi-word Textual Inversion [10.912989885886617]
高忠実度3D再構成に画像データとテキスト記述の両方を活用するMTFusionを提案する。
提案手法は,2つの段階から構成される。まず,新しい多語テキスト変換手法を採用し,詳細なテキスト記述を抽出する。
そして、この記述と画像を用いてFlexiCubesで3Dモデルを生成する。
論文 参考訳(メタデータ) (2024-11-19T03:29:18Z) - GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation [45.218605449572586]
3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。
Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。
また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T17:59:30Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z) - 3D Scene Creation and Rendering via Rough Meshes: A Lighting Transfer Avenue [49.62477229140788]
本稿では,再構成された3Dモデルを3Dシーン作成やレンダリングなどの実用的な3Dモデリングパイプラインに柔軟に統合する方法について述べる。
我々はNFRとPBRを橋渡しする照明伝達ネットワーク(LighTNet)を提案する。
論文 参考訳(メタデータ) (2022-11-27T13:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。