論文の概要: MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
- arxiv url: http://arxiv.org/abs/2411.17945v1
- Date: Tue, 26 Nov 2024 23:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:43.290706
- Title: MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
- Title(参考訳): MARVEL-40M+:高精細テキストから3Dコンテンツ作成のためのマルチレベル視覚実験
- Authors: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal,
- Abstract要約: MARVEL-40M+は,890万以上の3D資産に対して,4000万のテキストアノテーションを備えた広範なデータセットである。
我々の貢献は、オープンソースで事前訓練されたマルチビューVLMとLLMを統合した、新しいマルチステージアノテーションパイプラインである。
我々はまた、2段階のテキスト・ツー・3DパイプラインであるMARVEL-FX3Dを開発し、アノテーションで安定拡散を微調整し、事前訓練された画像・ツー・3Dネットワークを用いて15秒以内に3Dテクスチャメッシュを生成する。
- 参考スコア(独自算出の注目度): 12.34252319321633
- License:
- Abstract: Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.
- Abstract(参考訳): テキストプロンプトから高忠実度3Dコンテンツを生成することは、既存のデータセットのサイズ、多様性、アノテーションの深さが制限されているため、コンピュータビジョンにおいて重要な課題である。
この問題を解決するために、主要な7つの3Dデータセットから集約された890万以上の3Dアセットに対して、4000万のテキストアノテーションを備えた広範なデータセットであるMARVEL-40M+を紹介します。
我々の貢献は、オープンソースで事前訓練されたマルチビューVLMとLCMを統合して、詳細(150-200語)から簡潔なセマンティックタグ(10-20語)まで、多レベル記述を自動的に生成する、新しいマルチステージアノテーションパイプラインである。
この構造は、微細な3次元再構成と高速プロトタイピングの両方をサポートする。
さらに、ソースデータセットからの人間のメタデータをアノテーションパイプラインに組み込んで、アノテーションにドメイン固有の情報を追加し、VLM幻覚を減らす。
さらに,2段階のテキスト・ツー・3DパイプラインであるMARVEL-FX3Dを開発した。
我々はアノテーションで安定拡散を微調整し、15秒以内に3次元テクスチャメッシュを生成するために事前訓練された画像から3Dネットワークを使用する。
大規模な評価の結果、MARVEL-40M+は注釈の品質と言語の多様性において既存のデータセットを著しく上回り、GPT-4では72.41%、人間の評価では73.40%の勝利率を記録した。
関連論文リスト
- FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding [22.753452376062565]
GreenPLMは、最小限の3Dポイントクラウドとテキストデータペアで堅牢な3Dオブジェクト理解を可能にすることを目的としている。
画像とテキストのアライメントにCLIPにインスパイアされた我々は、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。
3Dオブジェクトのフリーテキスト記述を6M生成し、3段階のトレーニング戦略を設計し、LLMが様々なモダリティ間の本質的な接続をよりよく探索できるようにする。
論文 参考訳(メタデータ) (2024-08-28T17:38:44Z) - 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。