Fugu-MT 論文翻訳(概要): MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

論文の概要: MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

arxiv url: http://arxiv.org/abs/2411.17945v1
Date: Tue, 26 Nov 2024 23:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.480801
Title: MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
Title（参考訳）: MARVEL-40M+:高精細テキストから3Dコンテンツ作成のためのマルチレベル視覚実験
Authors: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal,
Abstract要約: MARVEL-40M+は,890万以上の3D資産に対して,4000万のテキストアノテーションを備えた広範なデータセットである。我々の貢献は、オープンソースで事前訓練されたマルチビューVLMとLLMを統合した、新しいマルチステージアノテーションパイプラインである。我々はまた、2段階のテキスト・ツー・3DパイプラインであるMARVEL-FX3Dを開発し、アノテーションで安定拡散を微調整し、事前訓練された画像・ツー・3Dネットワークを用いて15秒以内に3Dテクスチャメッシュを生成する。
参考スコア（独自算出の注目度）: 12.34252319321633
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.
Abstract（参考訳）: テキストプロンプトから高忠実度3Dコンテンツを生成することは、既存のデータセットのサイズ、多様性、アノテーションの深さが制限されているため、コンピュータビジョンにおいて重要な課題である。この問題を解決するために、主要な7つの3Dデータセットから集約された890万以上の3Dアセットに対して、4000万のテキストアノテーションを備えた広範なデータセットであるMARVEL-40M+を紹介します。我々の貢献は、オープンソースで事前訓練されたマルチビューVLMとLCMを統合して、詳細(150-200語)から簡潔なセマンティックタグ(10-20語)まで、多レベル記述を自動的に生成する、新しいマルチステージアノテーションパイプラインである。この構造は、微細な3次元再構成と高速プロトタイピングの両方をサポートする。さらに、ソースデータセットからの人間のメタデータをアノテーションパイプラインに組み込んで、アノテーションにドメイン固有の情報を追加し、VLM幻覚を減らす。さらに,2段階のテキスト・ツー・3DパイプラインであるMARVEL-FX3Dを開発した。我々はアノテーションで安定拡散を微調整し、15秒以内に3次元テクスチャメッシュを生成するために事前訓練された画像から3Dネットワークを使用する。大規模な評価の結果、MARVEL-40M+は注釈の品質と言語の多様性において既存のデータセットを著しく上回り、GPT-4では72.41%、人間の評価では73.40%の勝利率を記録した。

関連論文リスト

3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering [52.01655676571933]
3D-MoReは、基礎モデルの強みを活用して、大規模な3D言語データセットを生成するように設計されている。このフレームワークは、マルチモーダル埋め込み、クロスモーダルインタラクション、言語モデルデコーダなど、主要なコンポーネントを統合している。 ScanNetの3DシーンデータセットとScanQAとScanReferのテキストアノテーションを使用して、3D-MoReは62,000の質問応答ペアと73,000のオブジェクト記述を生成する。
論文参考訳（メタデータ） (2025-07-16T08:38:26Z)
PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models [20.256394783857676]
PiSA-Engineは、3次元空間意味論に富んだ命令ポイント言語データセットを生成するためのフレームワークである。 PiSA-Benchは6つの重要な側面を網羅した総合的な3Dベンチマークである。ゼロショット3Dオブジェクトキャプションと生成分類におけるPointLLM-PiSAの最先端性能を示す実験結果が得られた。
論文参考訳（メタデータ） (2025-03-13T16:37:26Z)
Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文参考訳（メタデータ） (2025-02-04T18:18:50Z)
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文参考訳（メタデータ） (2024-09-20T14:33:17Z)
More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding [22.753452376062565]
GreenPLMは、最小限の3Dポイントクラウドとテキストデータペアで堅牢な3Dオブジェクト理解を可能にすることを目的としている。画像とテキストのアライメントにCLIPにインスパイアされた我々は、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。 3Dオブジェクトのフリーテキスト記述を6M生成し、3段階のトレーニング戦略を設計し、LLMが様々なモダリティ間の本質的な接続をよりよく探索できるようにする。
論文参考訳（メタデータ） (2024-08-28T17:38:44Z)
3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。 SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文参考訳（メタデータ） (2024-07-08T16:26:52Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
GPT4Point: A Unified Framework for Point-Language Understanding and Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。 GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文参考訳（メタデータ） (2023-12-05T18:59:55Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文参考訳（メタデータ） (2023-07-19T17:58:03Z)
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-04-12T06:48:26Z)
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文参考訳（メタデータ） (2022-11-29T15:52:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。