論文の概要: Idea-2-3D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- arxiv url: http://arxiv.org/abs/2404.04363v1
- Date: Fri, 5 Apr 2024 19:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 21:28:04.086560
- Title: Idea-2-3D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- Title(参考訳): Idea-2-3D: インターリーブマルチモーダル入力から3次元モデル生成を可能にする協調LMMエージェント
- Authors: Junhao Chen, Xiang Li, Xiaojun Ye, Chao Li, Zhaoxin Fan, Hao Zhao,
- Abstract要約: 入力IDEAから3Dコンテンツを生成するIdean-2-3Dという新しいフレームワークを提案する。
これまでの方法では達成できないような印象的な3DAIGC結果を示します。
94.2%のケースでは、Idean-2-3Dはユーザーの要求を満たしており、ベースラインの2.3倍のIDEAと3Dモデルとの一致度を示している。
- 参考スコア(独自算出の注目度): 13.360196679265226
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we pursue a novel 3D AIGC setting: generating 3D content from IDEAs. The definition of an IDEA is the composition of multimodal inputs including text, image, and 3D models. To our knowledge, this challenging and appealing 3D AIGC setting has not been studied before. We propose the novel framework called Idea-2-3D to achieve this goal, which consists of three agents based upon large multimodel models (LMMs) and several existing algorithmic tools for them to invoke. Specifically, these three LMM-based agents are prompted to do the jobs of prompt generation, model selection and feedback reflection. They work in a cycle that involves both mutual collaboration and criticism. Note that this cycle is done in a fully automatic manner, without any human intervention. The framework then outputs a text prompt to generate 3D models that well align with input IDEAs. We show impressive 3D AIGC results that are beyond any previous methods can achieve. For quantitative comparisons, we construct caption-based baselines using a whole bunch of state-of-the-art 3D AIGC models and demonstrate Idea-2-3D out-performs significantly. In 94.2% of cases, Idea-2-3D meets users' requirements, marking a degree of match between IDEA and 3D models that is 2.3 times higher than baselines. Moreover, in 93.5% of the cases, users agreed that Idea-2-3D was better than baselines. Codes, data and models will made publicly available.
- Abstract(参考訳): 本稿では,IDEAから3Dコンテンツを生成する,新しい3DAIGC設定を提案する。
IDEAの定義は、テキスト、画像、および3Dモデルを含むマルチモーダル入力の合成である。
我々の知る限り、この挑戦的で魅力的な3DAIGC設定はこれまで研究されていない。
この目的を達成するために,大規模マルチモデルモデル(LMM)に基づく3つのエージェントと,それを呼び出すための既存のアルゴリズムツールからなる,Idean-2-3Dという新しいフレームワークを提案する。
具体的には、これらの3つのLMMベースのエージェントは、即時生成、モデル選択、フィードバックリフレクションといった仕事をするよう促される。
彼らは相互の協力と批判の両方を伴うサイクルで働きます。
このサイクルは人間の介入なしに完全に自動で行われる。
するとフレームワークはテキストプロンプトを出力し、3Dモデルを生成し、入力IDEAとうまく一致させる。
これまでの方法では達成できないような印象的な3DAIGC結果を示します。
定量的比較のために,多数の最先端3DAIGCモデルを用いてキャプションベースベースラインを構築し,Idean-2-3Dの優れた性能を示す。
94.2%のケースでは、Idean-2-3Dはユーザーの要求を満たしており、ベースラインの2.3倍のIDEAと3Dモデルとの一致度を示している。
さらに93.5%のケースでは、ユーザーはIdean-2-3Dがベースラインよりも優れていることに同意した。
コード、データ、モデルは公開されます。
関連論文リスト
- SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE [28.597376637565123]
本稿では,多次元ベクトル量子化変分オートエンコーダ(VQVAE)を利用して3Dオブジェクトをトークン化する新しいフレームワークであるScale AutoRegressive 3D(SAR3D)を紹介する。
次の単一トークンの代わりにマルチスケールの潜在表現で次のスケールを予測することで、SAR3Dは生成時間を著しく短縮する。
実験の結果,SAR3Dは現行の3D生成法よりも高速かつ高品質であることがわかった。
論文 参考訳(メタデータ) (2024-11-25T19:00:05Z) - Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。