Fugu-MT 論文翻訳(概要): LDM3D: Latent Diffusion Model for 3D

論文の概要: LDM3D: Latent Diffusion Model for 3D

arxiv url: http://arxiv.org/abs/2305.10853v1
Date: Thu, 18 May 2023 10:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 15:56:06.689972
Title: LDM3D: Latent Diffusion Model for 3D
Title（参考訳）: LDM3D:3次元の潜在拡散モデル
Authors: Gabriela Ben Melech Stan, Diana Wofk, Scottie Fox, Alex Redden, Will Saxton, Jean Yu, Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias Muller, Vasudev Lal
Abstract要約: 本研究では,与えられたテキストプロンプトから画像と深度マップデータを生成する3D(LDM3D)の潜時拡散モデルを提案する。また、生成したRGB画像と深度マップを用いて、没入的でインタラクティブな360度ビュー体験を作成するDepthFusionというアプリケーションを開発した。
参考スコア（独自算出の注目度）: 5.185393944663932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research paper proposes a Latent Diffusion Model for 3D (LDM3D) that generates both image and depth map data from a given text prompt, allowing users to generate RGBD images from text prompts. The LDM3D model is fine-tuned on a dataset of tuples containing an RGB image, depth map and caption, and validated through extensive experiments. We also develop an application called DepthFusion, which uses the generated RGB images and depth maps to create immersive and interactive 360-degree-view experiences using TouchDesigner. This technology has the potential to transform a wide range of industries, from entertainment and gaming to architecture and design. Overall, this paper presents a significant contribution to the field of generative AI and computer vision, and showcases the potential of LDM3D and DepthFusion to revolutionize content creation and digital experiences. A short video summarizing the approach can be found at https://t.ly/tdi2.
Abstract（参考訳）: 本稿では,テキストプロンプトから画像と深度マップデータの両方を生成する3d (ldm3d) のための潜在拡散モデルを提案し,テキストプロンプトからrgbd画像を生成する。 LDM3Dモデルは、RGB画像、深さマップ、キャプションを含むタプルのデータセット上で微調整され、広範な実験によって検証される。また、生成したRGB画像と深度マップを用いて、TouchDesignerを使って没入型でインタラクティブな360度ビューエクスペリエンスを作成するDepthFusionというアプリケーションを開発した。このテクノロジーは、エンターテイメントやゲームからアーキテクチャやデザインまで、幅広い産業を変革する可能性がある。本稿では、生成AIとコンピュータビジョンの分野における重要な貢献を示し、コンテンツ制作とデジタル体験に革命をもたらすLDM3DとDepthFusionの可能性を示す。このアプローチを要約した短いビデオは、https://t.ly/tdi2で見ることができる。

関連論文リスト

SMPL-GPTexture: Dual-View 3D Human Texture Estimation using Text-to-Image Generation Models [7.436391283592317]
SMPL-GPTextureは、自然言語プロンプトを入力として取り、最先端のテキスト画像生成モデルを活用する、新しいパイプラインである。パイプラインはユーザのプロンプトに合わせて高解像度なテクスチャを生成することができることを示す。
論文参考訳（メタデータ） (2025-04-17T23:28:38Z)
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation [56.862552362223425]
本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。フレームワークは3次元形状生成とテクスチャ生成で構成されている。本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
論文参考訳（メタデータ） (2025-02-20T04:22:30Z)
Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation [51.36926306499593]
Prometheusはオブジェクトレベルとシーンレベルの両方を秒単位でテキストから3D生成するための3D対応潜時拡散モデルである。遅延拡散パラダイムにおいて、3Dシーン生成を多視点, フィードフォワード, ピクセルアラインな3Dガウス生成として定式化する。
論文参考訳（メタデータ） (2024-12-30T17:44:23Z)
MTFusion: Reconstructing Any 3D Object from Single Image Using Multi-word Textual Inversion [10.912989885886617]
高忠実度3D再構成に画像データとテキスト記述の両方を活用するMTFusionを提案する。提案手法は,2つの段階から構成される。まず,新しい多語テキスト変換手法を採用し,詳細なテキスト記述を抽出する。そして、この記述と画像を用いてFlexiCubesで3Dモデルを生成する。
論文参考訳（メタデータ） (2024-11-19T03:29:18Z)
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文参考訳（メタデータ） (2024-11-12T18:59:32Z)
3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation [45.218605449572586]
3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。 Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
論文参考訳（メタデータ） (2024-10-24T17:59:30Z)
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文参考訳（メタデータ） (2024-04-10T17:57:41Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文参考訳（メタデータ） (2023-12-18T18:59:05Z)
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。 2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文参考訳（メタデータ） (2023-11-09T15:51:27Z)
EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-25T07:39:26Z)
MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文参考訳（メタデータ） (2023-08-18T09:39:52Z)
3D Scene Creation and Rendering via Rough Meshes: A Lighting Transfer Avenue [49.62477229140788]
本稿では,再構成された3Dモデルを3Dシーン作成やレンダリングなどの実用的な3Dモデリングパイプラインに柔軟に統合する方法について述べる。我々はNFRとPBRを橋渡しする照明伝達ネットワーク(LighTNet)を提案する。
論文参考訳（メタデータ） (2022-11-27T13:31:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。