Fugu-MT 論文翻訳(概要): MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration

論文の概要: MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration

arxiv url: http://arxiv.org/abs/2408.10605v1
Date: Tue, 20 Aug 2024 07:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 14:44:20.072724
Title: MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration
Title（参考訳）: MUSES:マルチモーダルエージェントによる3次元制御可能な画像生成
Authors: Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang,
Abstract要約: ユーザクエリから3次元制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。このマルチモーダルエージェントパイプラインは、人間のプロのコラボレーションを模倣することにより、3D制御可能なオブジェクトによる画像の効果的かつ自動生成を容易にする。 T2I-CompBenchおよびT2I-3DisBenchにおけるMUSESの最先端性能を示す。
参考スコア（独自算出の注目度）: 29.657854912416038
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advancements in text-to-image generation, most existing methods struggle to create images with multiple objects and complex spatial relationships in 3D world. To tackle this limitation, we introduce a generic AI system, namely MUSES, for 3D-controllable image generation from user queries. Specifically, our MUSES addresses this challenging task by developing a progressive workflow with three key components, including (1) Layout Manager for 2D-to-3D layout lifting, (2) Model Engineer for 3D object acquisition and calibration, (3) Image Artist for 3D-to-2D image rendering. By mimicking the collaboration of human professionals, this multi-modal agent pipeline facilitates the effective and automatic creation of images with 3D-controllable objects, through an explainable integration of top-down planning and bottom-up generation. Additionally, we find that existing benchmarks lack detailed descriptions of complex 3D spatial relationships of multiple objects. To fill this gap, we further construct a new benchmark of T2I-3DisBench (3D image scene), which describes diverse 3D image scenes with 50 detailed prompts. Extensive experiments show the state-of-the-art performance of MUSES on both T2I-CompBench and T2I-3DisBench, outperforming recent strong competitors such as DALL-E 3 and Stable Diffusion 3. These results demonstrate a significant step of MUSES forward in bridging natural language, 2D image generation, and 3D world.
Abstract（参考訳）: 近年のテキスト・画像生成の進歩にもかかわらず、既存の手法のほとんどは、複数のオブジェクトと複雑な空間的関係を持つ画像を作成するのに苦労している。この制限に対処するために、ユーザクエリから3D制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。具体的には,(1)2次元から3次元のレイアウトリフトのためのレイアウトマネージャ,(2)3次元のオブジェクト取得とキャリブレーションのためのモデルエンジニア,(3)3次元から2次元のイメージレンダリングのためのイメージアーティストなど,3つの重要なコンポーネントからなるプログレッシブワークフローを開発することで,この課題に対処する。このマルチモーダルエージェントパイプラインは、人間のプロフェッショナルのコラボレーションを模倣することにより、トップダウン計画とボトムアップ生成の説明可能な統合を通じて、3D制御可能なオブジェクトによる画像の有効かつ自動生成を容易にする。さらに、既存のベンチマークでは、複数のオブジェクトの複雑な3次元空間関係の詳細な記述が欠如していることが判明した。このギャップを埋めるために、我々はさらにT2I-3DisBench (3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。 T2I-CompBenchとT2I-3DisBenchは、DALL-E 3やStable Diffusion 3といった最近の強力なライバルよりも優れている。これらの結果は,自然言語,2次元画像生成,3次元世界におけるMUSESの前進の重要なステップを示している。

関連論文リスト

Constructing a 3D Town from a Single Image [23.231661811526955]
3DTownは、単一のトップダウンビューからリアルで一貫性のある3Dシーンを合成するために設計された、トレーニング不要のフレームワークである。入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。以上の結果から,1枚の画像から高品質な3Dタウンジェネレーションが実現可能であることを示す。
論文参考訳（メタデータ） (2025-05-21T17:10:47Z)
Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning [18.185457833299235]
本稿では,複数の3次元シーン理解タスクを同時に扱うために,インスタンス対応3次元大規模マルチモーダルモデル(Inst3D-LMM)を提案する。まず,MCMF(Multi-view Cross-Modal Fusion)モジュールを導入し,それに対応する幾何学的特徴に多視点2Dセマンティクスを注入する。シーンレベルの関係対応トークンに対しては、オブジェクト間の複雑な対空間関係をキャプチャするための3次元インスタンス空間関係(3D-ISR)モジュールをさらに提示する。
論文参考訳（メタデータ） (2025-03-01T14:38:42Z)
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文参考訳（メタデータ） (2024-09-05T17:21:54Z)
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。 IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文参考訳（メタデータ） (2024-02-13T18:59:51Z)
IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。 IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文参考訳（メタデータ） (2023-10-09T03:11:08Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
3D-Aware Multi-Class Image-to-Image Translation with NeRFs [82.27932197385748]
3D-Aware I2I(3D-Aware I2I)翻訳のための3D-Aware GANについて検討した。我々は、この学習プロセスを多クラス3D対応のGANステップと3D対応のI2I翻訳ステップに分離する。 2つのデータセットに関する広範な実験において、我々は多視点一貫性を持つ3次元認識型I2I翻訳を成功させた。
論文参考訳（メタデータ） (2023-03-27T08:54:51Z)
CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文参考訳（メタデータ） (2023-03-21T17:59:02Z)
XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文参考訳（メタデータ） (2022-10-06T15:54:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。