論文の概要: Idea-2-3D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- arxiv url: http://arxiv.org/abs/2404.04363v1
- Date: Fri, 5 Apr 2024 19:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 21:28:04.086560
- Title: Idea-2-3D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
- Title(参考訳): Idea-2-3D: インターリーブマルチモーダル入力から3次元モデル生成を可能にする協調LMMエージェント
- Authors: Junhao Chen, Xiang Li, Xiaojun Ye, Chao Li, Zhaoxin Fan, Hao Zhao,
- Abstract要約: 入力IDEAから3Dコンテンツを生成するIdean-2-3Dという新しいフレームワークを提案する。
これまでの方法では達成できないような印象的な3DAIGC結果を示します。
94.2%のケースでは、Idean-2-3Dはユーザーの要求を満たしており、ベースラインの2.3倍のIDEAと3Dモデルとの一致度を示している。
- 参考スコア(独自算出の注目度): 13.360196679265226
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we pursue a novel 3D AIGC setting: generating 3D content from IDEAs. The definition of an IDEA is the composition of multimodal inputs including text, image, and 3D models. To our knowledge, this challenging and appealing 3D AIGC setting has not been studied before. We propose the novel framework called Idea-2-3D to achieve this goal, which consists of three agents based upon large multimodel models (LMMs) and several existing algorithmic tools for them to invoke. Specifically, these three LMM-based agents are prompted to do the jobs of prompt generation, model selection and feedback reflection. They work in a cycle that involves both mutual collaboration and criticism. Note that this cycle is done in a fully automatic manner, without any human intervention. The framework then outputs a text prompt to generate 3D models that well align with input IDEAs. We show impressive 3D AIGC results that are beyond any previous methods can achieve. For quantitative comparisons, we construct caption-based baselines using a whole bunch of state-of-the-art 3D AIGC models and demonstrate Idea-2-3D out-performs significantly. In 94.2% of cases, Idea-2-3D meets users' requirements, marking a degree of match between IDEA and 3D models that is 2.3 times higher than baselines. Moreover, in 93.5% of the cases, users agreed that Idea-2-3D was better than baselines. Codes, data and models will made publicly available.
- Abstract(参考訳): 本稿では,IDEAから3Dコンテンツを生成する,新しい3DAIGC設定を提案する。
IDEAの定義は、テキスト、画像、および3Dモデルを含むマルチモーダル入力の合成である。
我々の知る限り、この挑戦的で魅力的な3DAIGC設定はこれまで研究されていない。
この目的を達成するために,大規模マルチモデルモデル(LMM)に基づく3つのエージェントと,それを呼び出すための既存のアルゴリズムツールからなる,Idean-2-3Dという新しいフレームワークを提案する。
具体的には、これらの3つのLMMベースのエージェントは、即時生成、モデル選択、フィードバックリフレクションといった仕事をするよう促される。
彼らは相互の協力と批判の両方を伴うサイクルで働きます。
このサイクルは人間の介入なしに完全に自動で行われる。
するとフレームワークはテキストプロンプトを出力し、3Dモデルを生成し、入力IDEAとうまく一致させる。
これまでの方法では達成できないような印象的な3DAIGC結果を示します。
定量的比較のために,多数の最先端3DAIGCモデルを用いてキャプションベースベースラインを構築し,Idean-2-3Dの優れた性能を示す。
94.2%のケースでは、Idean-2-3Dはユーザーの要求を満たしており、ベースラインの2.3倍のIDEAと3Dモデルとの一致度を示している。
さらに93.5%のケースでは、ユーザーはIdean-2-3Dがベースラインよりも優れていることに同意した。
コード、データ、モデルは公開されます。
関連論文リスト
- SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE [28.597376637565123]
本稿では,多次元ベクトル量子化変分オートエンコーダ(VQVAE)を利用して3Dオブジェクトをトークン化する新しいフレームワークであるScale AutoRegressive 3D(SAR3D)を紹介する。
次の単一トークンの代わりにマルチスケールの潜在表現で次のスケールを予測することで、SAR3Dは生成時間を著しく短縮する。
実験の結果,SAR3Dは現行の3D生成法よりも高速かつ高品質であることがわかった。
論文 参考訳(メタデータ) (2024-11-25T19:00:05Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。