論文の概要: UniG3D: A Unified 3D Object Generation Dataset
- arxiv url: http://arxiv.org/abs/2306.10730v1
- Date: Mon, 19 Jun 2023 07:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:56:58.714631
- Title: UniG3D: A Unified 3D Object Generation Dataset
- Title(参考訳): UniG3D: 統一された3Dオブジェクト生成データセット
- Authors: Qinghong Sun, Yangguang Li, ZeXiang Liu, Xiaoshui Huang, Fenggang Liu,
Xihui Liu, Wanli Ouyang, Jing Shao
- Abstract要約: UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
- 参考スコア(独自算出の注目度): 75.49544172927749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of generative AI has a transformative impact on various areas,
including virtual reality, autonomous driving, the metaverse, gaming, and
robotics. Among these applications, 3D object generation techniques are of
utmost importance. This technique has unlocked fresh avenues in the realm of
creating, customizing, and exploring 3D objects. However, the quality and
diversity of existing 3D object generation methods are constrained by the
inadequacies of existing 3D object datasets, including issues related to text
quality, the incompleteness of multi-modal data representation encompassing 2D
rendered images and 3D assets, as well as the size of the dataset. In order to
resolve these issues, we present UniG3D, a unified 3D object generation dataset
constructed by employing a universal data transformation pipeline on Objaverse
and ShapeNet datasets. This pipeline converts each raw 3D model into
comprehensive multi-modal data representation <text, image, point cloud, mesh>
by employing rendering engines and multi-modal models. These modules ensure the
richness of textual information and the comprehensiveness of data
representation. Remarkably, the universality of our pipeline refers to its
ability to be applied to any 3D dataset, as it only requires raw 3D data. The
selection of data sources for our dataset is based on their scale and quality.
Subsequently, we assess the effectiveness of our dataset by employing Point-E
and SDFusion, two widely recognized methods for object generation, tailored to
the prevalent 3D representations of point clouds and signed distance functions.
Our dataset is available at: https://unig3d.github.io.
- Abstract(参考訳): 生成AIの分野は、仮想現実、自律運転、メタバース、ゲーム、ロボット工学など、さまざまな領域に変革的な影響を与えている。
これらのアプリケーションの中で、3Dオブジェクト生成技術が最も重要である。
この技術は、3Dオブジェクトの作成、カスタマイズ、探索という領域で新しい道を開いた。
しかし、既存の3Dオブジェクト生成手法の品質と多様性は、テキストの品質、2Dレンダリング画像と3Dアセットを含むマルチモーダルデータ表現の不完全性、およびデータセットのサイズなど、既存の3Dオブジェクトデータセットの不完全性によって制約される。
これらの問題を解決するために,ojaverseとshapenetのデータセットにユニバーサルなデータ変換パイプラインを用いて構築した統一3dオブジェクト生成データセットであるunig3dを提案する。
このパイプラインは、レンダリングエンジンとマルチモーダルモデルを用いて、各生の3Dモデルを包括的なマルチモーダルデータ表現<text, image, point cloud, mesh>に変換する。
これらのモジュールは、テキスト情報の豊かさとデータ表現の包括性を保証する。
注目すべきは、パイプラインの普遍性は、生の3Dデータのみを必要とするため、任意の3Dデータセットに適用可能であることです。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
次に,点雲の一般的な3次元表現と符号付き距離関数に合わせた2つのオブジェクト生成法であるpoint-eとsdfusionを用いて,データセットの有効性を評価する。
私たちのデータセットは、https://unig3d.github.io.org/で利用可能です。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection
Generalization [3.8243923744440926]
特定の点分布を持つソースデータセットでトレーニングされた3Dオブジェクト検出モデルは、目に見えないデータセットに一般化する上で困難であることが示されている。
我々は、アノテーション付きソースデータセットから利用可能な情報を、MDT3D(Multi-Dataset Training for 3D Object Detection)メソッドで活用する。
トレーニング中にデータセットの混合をどのように管理し、最後にクロスデータセット拡張メソッド、すなわちクロスデータセットオブジェクトインジェクションを導入するかを示します。
論文 参考訳(メタデータ) (2023-08-02T08:20:00Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文 参考訳(メタデータ) (2023-05-23T09:52:49Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。