論文の概要: MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
- arxiv url: http://arxiv.org/abs/2411.17945v2
- Date: Wed, 26 Mar 2025 11:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:11.455141
- Title: MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
- Title(参考訳): MARVEL-40M+:高精細テキストから3Dコンテンツ作成のためのマルチレベル視覚実験
- Authors: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal,
- Abstract要約: MARVEL-40M+は,890万以上の3D資産に対して,4000万のテキストアノテーションを備えた広範なデータセットである。
我々の貢献は、オープンソースで事前訓練されたマルチビューVLMとLLMを統合した、新しいマルチステージアノテーションパイプラインである。
我々は2段階のテキスト・トゥ・3DパイプラインであるMARVEL-FX3Dを開発した。我々はアノテーションで安定な拡散を微調整し、事前訓練された画像・ツー・3Dネットワークを用いて15秒以内に3Dテクスチャメッシュを生成する。
- 参考スコア(独自算出の注目度): 12.34252319321633
- License:
- Abstract: Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators. Project page is available at https://sankalpsinha-cmos.github.io/MARVEL/.
- Abstract(参考訳): テキストプロンプトから高忠実度3Dコンテンツを生成することは、既存のデータセットのサイズ、多様性、アノテーションの深さが制限されているため、コンピュータビジョンにおいて重要な課題である。
この問題を解決するために、主要な7つの3Dデータセットから集約された890万以上の3Dアセットに対して、4000万のテキストアノテーションを備えた広範なデータセットであるMARVEL-40M+を紹介します。
我々の貢献は、オープンソースで事前訓練されたマルチビューVLMとLCMを統合して、詳細(150-200語)から簡潔なセマンティックタグ(10-20語)まで、多レベル記述を自動的に生成する、新しいマルチステージアノテーションパイプラインである。
この構造は、微細な3次元再構成と高速プロトタイピングの両方をサポートする。
さらに、ソースデータセットからの人間のメタデータをアノテーションパイプラインに組み込んで、アノテーションにドメイン固有の情報を追加し、VLM幻覚を減らす。
さらに,2段階のテキスト・ツー・3DパイプラインであるMARVEL-FX3Dを開発した。
我々はアノテーションで安定拡散を微調整し、15秒以内に3次元テクスチャメッシュを生成するために事前訓練された画像から3Dネットワークを使用する。
大規模な評価の結果、MARVEL-40M+は注釈の品質と言語の多様性において既存のデータセットを著しく上回り、GPT-4では72.41%、人間の評価では73.40%の勝利率を記録した。
プロジェクトページはhttps://sankalpsinha-cmos.github.io/MARVEL/で公開されている。
関連論文リスト
- Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。
本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。
このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文 参考訳(メタデータ) (2025-02-04T18:18:50Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。