論文の概要: MultiDreamer3D: Multi-concept 3D Customization with Concept-Aware Diffusion Guidance
- arxiv url: http://arxiv.org/abs/2501.13449v1
- Date: Thu, 23 Jan 2025 08:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:10.717113
- Title: MultiDreamer3D: Multi-concept 3D Customization with Concept-Aware Diffusion Guidance
- Title(参考訳): MultiDreamer3D:概念認識拡散誘導によるマルチコンセプト3Dカスタマイズ
- Authors: Wooseok Song, Seunggyu Chang, Jaejun Yoo,
- Abstract要約: MultiDreamer3Dは、コヒーレントなマルチコンセプト3Dコンテンツを分割・コンカレントに生成することができる。
我々は、MultiDreamer3Dがオブジェクトの存在を保証し、各概念の異なるアイデンティティを保存するだけでなく、プロパティの変更やインタラクションといった複雑なケースの処理にも成功していることを示す。
- 参考スコア(独自算出の注目度): 8.084345870645201
- License:
- Abstract: While single-concept customization has been studied in 3D, multi-concept customization remains largely unexplored. To address this, we propose MultiDreamer3D that can generate coherent multi-concept 3D content in a divide-and-conquer manner. First, we generate 3D bounding boxes using an LLM-based layout controller. Next, a selective point cloud generator creates coarse point clouds for each concept. These point clouds are placed in the 3D bounding boxes and initialized into 3D Gaussian Splatting with concept labels, enabling precise identification of concept attributions in 2D projections. Finally, we refine 3D Gaussians via concept-aware interval score matching, guided by concept-aware diffusion. Our experimental results show that MultiDreamer3D not only ensures object presence and preserves the distinct identities of each concept but also successfully handles complex cases such as property change or interaction. To the best of our knowledge, we are the first to address the multi-concept customization in 3D.
- Abstract(参考訳): シングルコンセプトのカスタマイズは3Dで研究されているが、マルチコンセプトのカスタマイズはほとんど探索されていない。
そこで本研究では,コヒーレントなマルチコンセプト3Dコンテンツを分割・コンカレントに生成できるMultiDreamer3Dを提案する。
まず LLM ベースのレイアウトコントローラを用いて 3 次元境界ボックスを生成する。
次に、選択点雲生成器は各概念に対して粗い点雲を生成する。
これらの点雲は3Dバウンディングボックスに配置され、概念ラベル付き3Dガウススプラッティングに初期化され、2Dプロジェクションにおける概念属性の正確な同定を可能にする。
最後に、3次元ガウスアンを概念認識間隔スコアマッチングにより洗練し、概念認識拡散を導出する。
実験の結果,MultiDreamer3Dはオブジェクトの存在を保証し,各概念の同一性を保持するだけでなく,特性変化や相互作用といった複雑なケースをうまく処理できることがわかった。
私たちの知る限りでは、3Dにおけるマルチコンセプトのカスタマイズに最初に取り組みます。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Dual Encoder GAN Inversion for High-Fidelity 3D Head Reconstruction from Single Images [8.558093666229553]
3D GANインバージョンは、単一の画像をGAN(Generative Adversarial Network)の潜在空間に投影することを目的としている。
3D GANインバージョンには良い結果をもたらすエンコーダがあるが、主にEG3D上に構築されている。
画像の360度合成に優れたパノヘッドを基盤とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:30:23Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors [44.30208916019448]
本研究では,複数の独立したオブジェクトを対話で生成できるテキストから3DのDreamDissectorを提案する。
DreamDissectorはマルチオブジェクトのテキストから3DのNeRFを入力として受け入れ、独立したテクスチャメッシュを生成する。
論文 参考訳(メタデータ) (2024-07-23T07:59:57Z) - ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars [62.34862776670368]
現実世界のアプリケーションは、一貫したテーマを共有する3Dアセットの大規模なギャラリーを必要とすることが多い。
テーマを意識した3D-to-3D生成のための新しいアプローチであるThemeStationを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:01Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - ConceptFusion: Open-set Multimodal 3D Mapping [91.23054486724402]
ConceptFusionは基本的にオープンセットのシーン表現である。
これは、閉じた概念や本質的にはマルチモーダル以上の推論を可能にする。
実世界の多くのデータセット上でConceptFusionを評価する。
論文 参考訳(メタデータ) (2023-02-14T18:40:26Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。