論文の概要: Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
- arxiv url: http://arxiv.org/abs/2508.20470v1
- Date: Thu, 28 Aug 2025 06:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.088951
- Title: Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
- Title(参考訳): Droplet3D:Droplet3Dは3D世代を魅了するビデオからコモンセンスに先んじる
- Authors: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan,
- Abstract要約: 本稿では,データセットをモデルに分散した3次元アセット生成にビデオモダリティを適用する方法について検討する。
マルチビューレベルのアノテーションを備えた最初の大規模ビデオデータセットであるDroplet3D-4Mを導入し、画像入力と高密度テキスト入力の両方をサポートする生成モデルであるDroplet3Dをトレーニングする。
- 参考スコア(独自算出の注目度): 44.64235988574981
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling laws have validated the success and promise of large-data-trained models in creative generation across text, image, and video domains. However, this paradigm faces data scarcity in the 3D domain, as there is far less of it available on the internet compared to the aforementioned modalities. Fortunately, there exist adequate videos that inherently contain commonsense priors, offering an alternative supervisory signal to mitigate the generalization bottleneck caused by limited native 3D data. On the one hand, videos capturing multiple views of an object or scene provide a spatial consistency prior for 3D generation. On the other hand, the rich semantic information contained within the videos enables the generated content to be more faithful to the text prompts and semantically plausible. This paper explores how to apply the video modality in 3D asset generation, spanning datasets to models. We introduce Droplet3D-4M, the first large-scale video dataset with multi-view level annotations, and train Droplet3D, a generative model supporting both image and dense text input. Extensive experiments validate the effectiveness of our approach, demonstrating its ability to produce spatially consistent and semantically plausible content. Moreover, in contrast to the prevailing 3D solutions, our approach exhibits the potential for extension to scene-level applications. This indicates that the commonsense priors from the videos significantly facilitate 3D creation. We have open-sourced all resources including the dataset, code, technical framework, and model weights: https://dropletx.github.io/.
- Abstract(参考訳): スケーリング法則は、テキスト、画像、ビデオドメインにわたる創造的生成において、大規模なデータトレーニングモデルの成功と約束を検証する。
しかし、このパラダイムは3Dドメインでのデータ不足に直面している。
幸いなことに、ネイティブな3Dデータによって引き起こされる一般化ボトルネックを軽減するために、代替の監視信号を提供する、本来はコモンセンス以前のものを含む適切なビデオが存在する。
一方、オブジェクトやシーンの複数のビューをキャプチャするビデオは、3D生成に先立って空間的な一貫性を提供する。
一方、ビデオに含まれるリッチなセマンティック情報により、生成されたコンテンツはテキストのプロンプトにより忠実になり、セマンティックに妥当である。
本稿では,データセットをモデルに分散した3次元アセット生成にビデオモダリティを適用する方法について検討する。
マルチビューレベルのアノテーションを備えた最初の大規模ビデオデータセットであるDroplet3D-4Mを導入し、画像入力と高密度テキスト入力の両方をサポートする生成モデルであるDroplet3Dをトレーニングする。
本手法の有効性を検証し,空間的に一貫した,意味論的に検証可能なコンテンツを生成できることを実証した。
さらに,一般的な3Dソリューションとは対照的に,本手法はシーンレベルのアプリケーションへの拡張の可能性を示す。
これは、ビデオのコモンセンスが3D作成を著しく促進していることを示している。
データセット、コード、テクニカルフレームワーク、モデルウェイトを含むすべてのリソースをオープンソース化しました。
関連論文リスト
- You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。