論文の概要: Idea23D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- arxiv url: http://arxiv.org/abs/2404.04363v2
- Date: Wed, 18 Dec 2024 08:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:51.795633
- Title: Idea23D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- Title(参考訳): Idea23D: インターリーブマルチモーダル入力から3次元モデル生成を可能にする協調LMMエージェント
- Authors: Junhao Chen, Xiang Li, Xiaojun Ye, Chao Li, Zhaoxin Fan, Hao Zhao,
- Abstract要約: 現在の3D AIGCメソッドは、人間の創造性を完全に解き放たない、と我々は主張する。
本稿では,IDEAから3Dコンテンツを生成する,新しい3DAIGC手法を提案する。
大規模マルチモーダルモデル(LMM)に基づく3つのエージェントと既存のアルゴリズムツールを組み合わせた新しいフレームワークIdean23Dを提案する。
- 参考スコア(独自算出の注目度): 13.360196679265226
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the success of 2D diffusion models, 2D AIGC content has already transformed our lives. Recently, this success has been extended to 3D AIGC, with state-of-the-art methods generating textured 3D models from single images or text. However, we argue that current 3D AIGC methods still do not fully unleash human creativity. We often imagine 3D content made from multimodal inputs, such as what it would look like if my pet bunny were eating a doughnut on the table. In this paper, we explore a novel 3D AIGC approach: generating 3D content from IDEAs. An IDEA is a multimodal input composed of text, image, and 3D models. To our knowledge, this challenging and exciting 3D AIGC setting has not been studied before. We propose the new framework Idea23D, which combines three agents based on large multimodal models (LMMs) and existing algorithmic tools. These three LMM-based agents are tasked with prompt generation, model selection, and feedback reflection. They collaborate and critique each other in a fully automated loop, without human intervention. The framework then generates a text prompt to create 3D models that align closely with the input IDEAs. We demonstrate impressive 3D AIGC results that surpass previous methods. To comprehensively assess the 3D AIGC capabilities of Idea23D, we introduce the Eval3DAIGC-198 dataset, containing 198 multimodal inputs for 3D generation tasks. This dataset evaluates the alignment between generated 3D content and input IDEAs. Our user study and quantitative results show that Idea23D significantly improves the success rate and accuracy of 3D generation, with excellent compatibility across various LMM, Text-to-Image, and Image-to-3D models. Code and dataset are available at \url{https://idea23d.github.io/}.
- Abstract(参考訳): 2D拡散モデルの成功により、2D AIGCコンテンツはすでに私たちの生活を変えています。
近年、この成功は3D AIGCに拡張され、最先端の手法が単一の画像やテキストからテクスチャ化された3Dモデルを生成するようになった。
しかし、現在の3DAIGC法は、人間の創造性を完全に解き放たない。
例えば、ペットのバニーがドーナツをテーブルの上で食べていたらどうなるか、といった具合だ。
本稿では,IDEAから3Dコンテンツを生成する,新しい3DAIGC手法を提案する。
IDEAは、テキスト、画像、および3Dモデルで構成されるマルチモーダル入力である。
我々の知る限り、この挑戦的でエキサイティングな3DAIGC設定はこれまで研究されていない。
大規模マルチモーダルモデル(LMM)に基づく3つのエージェントと既存のアルゴリズムツールを組み合わせた新しいフレームワークIdean23Dを提案する。
これら3つのLMMベースのエージェントは、即時生成、モデル選択、フィードバック反射をタスクとする。
彼らは人間の介入なしに、完全に自動化されたループで互いに協力し、批判します。
するとフレームワークはテキストプロンプトを生成し、3Dモデルを生成し、入力IDEAと密接に一致させる。
従来の手法を超越した印象的な3DAIGC結果を示す。
Idea23Dの3D AIGC機能を包括的に評価するために、Eval3DAIGC-198データセットを導入し、3D生成タスク用の198個のマルチモーダル入力を含む。
このデータセットは、生成された3Dコンテンツと入力IDEAのアライメントを評価する。
この結果から,Ideo23Dは,LMM,テキスト・ツー・イメージ,画像・ツー・3Dモデル間での互換性に優れ,3次元生成の成功率と精度を著しく向上させることが示された。
コードとデータセットは \url{https://idea23d.github.io/} で公開されている。
関連論文リスト
- Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE [28.597376637565123]
本稿では,多次元ベクトル量子化変分オートエンコーダ(VQVAE)を利用して3Dオブジェクトをトークン化する新しいフレームワークであるScale AutoRegressive 3D(SAR3D)を紹介する。
次の単一トークンの代わりにマルチスケールの潜在表現で次のスケールを予測することで、SAR3Dは生成時間を著しく短縮する。
実験の結果,SAR3Dは現行の3D生成法よりも高速かつ高品質であることがわかった。
論文 参考訳(メタデータ) (2024-11-25T19:00:05Z) - Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。