論文の概要: MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration
- arxiv url: http://arxiv.org/abs/2408.10605v3
- Date: Sun, 29 Sep 2024 11:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:16.757284
- Title: MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration
- Title(参考訳): MUSES:マルチモーダルエージェントによる3次元制御可能な画像生成
- Authors: Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang,
- Abstract要約: ユーザクエリから3次元制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。
このマルチモーダルエージェントパイプラインは、人間のプロのコラボレーションを模倣することにより、3D制御可能なオブジェクトによる画像の効果的かつ自動生成を容易にする。
コードとモデルも間もなくリリースされる予定です。
- 参考スコア(独自算出の注目度): 29.657854912416038
- License:
- Abstract: Despite recent advancements in text-to-image generation, most existing methods struggle to create images with multiple objects and complex spatial relationships in 3D world. To tackle this limitation, we introduce a generic AI system, namely MUSES, for 3D-controllable image generation from user queries. Specifically, our MUSES addresses this challenging task by developing a progressive workflow with three key components, including (1) Layout Manager for 2D-to-3D layout lifting, (2) Model Engineer for 3D object acquisition and calibration, (3) Image Artist for 3D-to-2D image rendering. By mimicking the collaboration of human professionals, this multi-modal agent pipeline facilitates the effective and automatic creation of images with 3D-controllable objects, through an explainable integration of top-down planning and bottom-up generation. Additionally, we find that existing benchmarks lack detailed descriptions of complex 3D spatial relationships of multiple objects. To fill this gap, we further construct a new benchmark of T2I-3DisBench (3D image scene), which describes diverse 3D image scenes with 50 detailed prompts. Extensive experiments show the state-of-the-art performance of MUSES on both T2I-CompBench and T2I-3DisBench, outperforming recent strong competitors such as DALL-E 3 and Stable Diffusion 3. These results demonstrate a significant step of MUSES forward in bridging natural language, 2D image generation, and 3D world. Our codes and models will be released soon.
- Abstract(参考訳): 近年のテキスト・画像生成の進歩にもかかわらず、既存の手法のほとんどは、複数のオブジェクトと複雑な空間的関係を持つ画像を作成するのに苦労している。
この制限に対処するために、ユーザクエリから3D制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。
具体的には,(1)2次元から3次元のレイアウトリフトのためのレイアウトマネージャ,(2)3次元のオブジェクト取得とキャリブレーションのためのモデルエンジニア,(3)3次元から2次元のイメージレンダリングのためのイメージアーティストなど,3つの重要なコンポーネントからなるプログレッシブワークフローを開発することで,この課題に対処する。
このマルチモーダルエージェントパイプラインは、人間のプロフェッショナルのコラボレーションを模倣することにより、トップダウン計画とボトムアップ生成の説明可能な統合を通じて、3D制御可能なオブジェクトによる画像の有効かつ自動生成を容易にする。
さらに、既存のベンチマークでは、複数のオブジェクトの複雑な3次元空間関係の詳細な記述が欠如していることが判明した。
このギャップを埋めるために、我々はさらにT2I-3DisBench (3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。
T2I-CompBenchとT2I-3DisBenchは、DALL-E 3やStable Diffusion 3といった最近の強力なライバルよりも優れている。
これらの結果は,自然言語,2次元画像生成,3次元世界におけるMUSESの前進の重要なステップを示している。
コードとモデルも間もなくリリースされる予定です。
関連論文リスト
- Generic 3D Diffusion Adapter Using Controlled Multi-View Editing [44.99706994361726]
オープンドメインの3Dオブジェクト合成は、限られたデータと高い計算複雑性のために、画像合成に遅れを取っている。
本稿では,SDEditの3次元版として機能するMVEditを提案する。
MVEditはトレーニング不要の3Dアダプタを通じて3D一貫性を実現し、最後の2Dビューをコヒーレントな3D表現に変換する。
論文 参考訳(メタデータ) (2024-03-18T17:59:09Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは、複雑な画像から詳細で包括的な外観特徴を抽出するために、画像プロンプト適応を取り入れた新しいアプローチである。
以上の結果から,IDDreamerは提供されたテキストと複雑な画像プロンプトの出現の両方に整合した高品質な3Dオブジェクトを効果的に生成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。