Fugu-MT 論文翻訳(概要): ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

論文の概要: ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

arxiv url: http://arxiv.org/abs/2403.12409v1
Date: Tue, 19 Mar 2024 03:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:31:57.821623
Title: ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance
Title（参考訳）: ComboVerse:空間認識拡散誘導を用いた合成3Dアセットの作成
Authors: Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, Ziwei Liu,
Abstract要約: 複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
参考スコア（独自算出の注目度）: 76.7746870349809
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating high-quality 3D assets from a given image is highly desirable in various applications such as AR/VR. Recent advances in single-image 3D generation explore feed-forward models that learn to infer the 3D model of an object without optimization. Though promising results have been achieved in single object generation, these methods often struggle to model complex 3D assets that inherently contain multiple objects. In this work, we present ComboVerse, a 3D generation framework that produces high-quality 3D assets with complex compositions by learning to combine multiple models. 1) We first perform an in-depth analysis of this ``multi-object gap'' from both model and data perspectives. 2) Next, with reconstructed 3D models of different objects, we seek to adjust their sizes, rotation angles, and locations to create a 3D asset that matches the given image. 3) To automate this process, we apply spatially-aware score distillation sampling (SSDS) from pretrained diffusion models to guide the positioning of objects. Our proposed framework emphasizes spatial alignment of objects, compared with standard score distillation sampling, and thus achieves more accurate results. Extensive experiments validate ComboVerse achieves clear improvements over existing methods in generating compositional 3D assets.
Abstract（参考訳）: 与えられた画像から高品質な3Dアセットを生成することは、AR/VRのような様々なアプリケーションで非常に望ましい。単一画像の3D生成の最近の進歩は、最適化せずに物体の3Dモデルを推測するフィードフォワードモデルを探っている。単一のオブジェクト生成において有望な結果が得られたが、これらの手法は本質的に複数のオブジェクトを含む複雑な3Dアセットのモデル化に苦慮することが多い。本稿では,複数のモデルを組み合わせて学習することで,複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseを紹介する。 1) この「マルチオブジェクトギャップ」をモデルとデータの両方の観点から詳細に分析する。次に, 異なる物体の3次元モデルを再構成し, その大きさ, 回転角, 位置を調整し, 与えられた画像に一致する3次元アセットを作成する。 3) このプロセスを自動化するために, 既訓練拡散モデルから空間認識型スコア蒸留サンプリング(SSDS)を適用し, 物体の位置を導出する。提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視し,より正確な結果が得られる。 ComboVerseの大規模な実験は、既存の3Dアセットの生成方法よりも明らかに改善されている。

関連論文リスト

Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation [15.374873279207623]
本稿では,3Dオブジェクトの生成,編集,拡張を行う効率的なフレームワークであるKiss3DGen(Keep It Simple and Straightforward in 3D Generation)を紹介する。具体的には,多視点画像とその対応する正規写像からなるタイル付き表現である'3D Bundle Image'を生成するために拡散モデルを微調整する。この簡単な方法は、3次元生成問題を2次元画像生成タスクに効果的に変換し、事前訓練された拡散モデルにおける知識の利用を最大化する。
論文参考訳（メタデータ） (2025-03-03T10:07:19Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。 Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文参考訳（メタデータ） (2024-12-03T17:58:07Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文参考訳（メタデータ） (2024-05-30T17:59:54Z)
LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文参考訳（メタデータ） (2024-05-24T15:09:12Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文参考訳（メタデータ） (2023-04-19T16:39:51Z)
CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文参考訳（メタデータ） (2023-03-21T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。