論文の概要: Idea23D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- arxiv url: http://arxiv.org/abs/2404.04363v2
- Date: Wed, 18 Dec 2024 08:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:28.183866
- Title: Idea23D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- Title(参考訳): Idea23D: インターリーブマルチモーダル入力から3次元モデル生成を可能にする協調LMMエージェント
- Authors: Junhao Chen, Xiang Li, Xiaojun Ye, Chao Li, Zhaoxin Fan, Hao Zhao,
- Abstract要約: 現在の3D AIGCメソッドは、人間の創造性を完全に解き放たない、と我々は主張する。
本稿では,IDEAから3Dコンテンツを生成する,新しい3DAIGC手法を提案する。
大規模マルチモーダルモデル(LMM)に基づく3つのエージェントと既存のアルゴリズムツールを組み合わせた新しいフレームワークIdean23Dを提案する。
- 参考スコア(独自算出の注目度): 13.360196679265226
- License:
- Abstract: With the success of 2D diffusion models, 2D AIGC content has already transformed our lives. Recently, this success has been extended to 3D AIGC, with state-of-the-art methods generating textured 3D models from single images or text. However, we argue that current 3D AIGC methods still do not fully unleash human creativity. We often imagine 3D content made from multimodal inputs, such as what it would look like if my pet bunny were eating a doughnut on the table. In this paper, we explore a novel 3D AIGC approach: generating 3D content from IDEAs. An IDEA is a multimodal input composed of text, image, and 3D models. To our knowledge, this challenging and exciting 3D AIGC setting has not been studied before. We propose the new framework Idea23D, which combines three agents based on large multimodal models (LMMs) and existing algorithmic tools. These three LMM-based agents are tasked with prompt generation, model selection, and feedback reflection. They collaborate and critique each other in a fully automated loop, without human intervention. The framework then generates a text prompt to create 3D models that align closely with the input IDEAs. We demonstrate impressive 3D AIGC results that surpass previous methods. To comprehensively assess the 3D AIGC capabilities of Idea23D, we introduce the Eval3DAIGC-198 dataset, containing 198 multimodal inputs for 3D generation tasks. This dataset evaluates the alignment between generated 3D content and input IDEAs. Our user study and quantitative results show that Idea23D significantly improves the success rate and accuracy of 3D generation, with excellent compatibility across various LMM, Text-to-Image, and Image-to-3D models. Code and dataset are available at \url{https://idea23d.github.io/}.
- Abstract(参考訳): 2D拡散モデルの成功により、2D AIGCコンテンツはすでに私たちの生活を変えています。
近年、この成功は3D AIGCに拡張され、最先端の手法が単一の画像やテキストからテクスチャ化された3Dモデルを生成するようになった。
しかし、現在の3DAIGC法は、人間の創造性を完全に解き放たない。
例えば、ペットのバニーがドーナツをテーブルの上で食べていたらどうなるか、といった具合だ。
本稿では,IDEAから3Dコンテンツを生成する,新しい3DAIGC手法を提案する。
IDEAは、テキスト、画像、および3Dモデルで構成されるマルチモーダル入力である。
我々の知る限り、この挑戦的でエキサイティングな3DAIGC設定はこれまで研究されていない。
大規模マルチモーダルモデル(LMM)に基づく3つのエージェントと既存のアルゴリズムツールを組み合わせた新しいフレームワークIdean23Dを提案する。
これら3つのLMMベースのエージェントは、即時生成、モデル選択、フィードバック反射をタスクとする。
彼らは人間の介入なしに、完全に自動化されたループで互いに協力し、批判します。
するとフレームワークはテキストプロンプトを生成し、3Dモデルを生成し、入力IDEAと密接に一致させる。
従来の手法を超越した印象的な3DAIGC結果を示す。
Idea23Dの3D AIGC機能を包括的に評価するために、Eval3DAIGC-198データセットを導入し、3D生成タスク用の198個のマルチモーダル入力を含む。
このデータセットは、生成された3Dコンテンツと入力IDEAのアライメントを評価する。
この結果から,Ideo23Dは,LMM,テキスト・ツー・イメージ,画像・ツー・3Dモデル間での互換性に優れ,3次元生成の成功率と精度を著しく向上させることが示された。
コードとデータセットは \url{https://idea23d.github.io/} で公開されている。
関連論文リスト
- SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE [28.597376637565123]
本稿では,多次元ベクトル量子化変分オートエンコーダ(VQVAE)を利用して3Dオブジェクトをトークン化する新しいフレームワークであるScale AutoRegressive 3D(SAR3D)を紹介する。
次の単一トークンの代わりにマルチスケールの潜在表現で次のスケールを予測することで、SAR3Dは生成時間を著しく短縮する。
実験の結果,SAR3Dは現行の3D生成法よりも高速かつ高品質であることがわかった。
論文 参考訳(メタデータ) (2024-11-25T19:00:05Z) - Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。