Fugu-MT 論文翻訳(概要): Objaverse-XL: A Universe of 10M+ 3D Objects

論文の概要: Objaverse-XL: A Universe of 10M+ 3D Objects

arxiv url: http://arxiv.org/abs/2307.05663v1
Date: Tue, 11 Jul 2023 17:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 15:36:45.531273
Title: Objaverse-XL: A Universe of 10M+ 3D Objects
Title（参考訳）: オブジャバースXL:10M以上の3Dオブジェクトの宇宙
Authors: Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan, Christian Laforte, Vikram Voleti, Samir Yitzhak Gadre, Eli VanderBilt, Aniruddha Kembhavi, Carl Vondrick, Georgia Gkioxari, Kiana Ehsani, Ludwig Schmidt, Ali Farhadi
Abstract要約: Averse-XLは1000万以上の3Dオブジェクトからなるデータセットである。 1億枚以上のマルチビューレンダリング画像を利用して、新しい視点でZero123をトレーニングすることにより、ゼロショットの強力な一般化能力が得られることを示す。
参考スコア（独自算出の注目度）: 58.02773375519506
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural language processing and 2D vision models have attained remarkable proficiency on many tasks primarily by escalating the scale of training data. However, 3D vision tasks have not seen the same progress, in part due to the challenges of acquiring high-quality 3D data. In this work, we present Objaverse-XL, a dataset of over 10 million 3D objects. Our dataset comprises deduplicated 3D objects from a diverse set of sources, including manually designed objects, photogrammetry scans of landmarks and everyday items, and professional scans of historic and antique artifacts. Representing the largest scale and diversity in the realm of 3D datasets, Objaverse-XL enables significant new possibilities for 3D vision. Our experiments demonstrate the improvements enabled with the scale provided by Objaverse-XL. We show that by training Zero123 on novel view synthesis, utilizing over 100 million multi-view rendered images, we achieve strong zero-shot generalization abilities. We hope that releasing Objaverse-XL will enable further innovations in the field of 3D vision at scale.
Abstract（参考訳）: 自然言語処理と2次元視覚モデルは、主にトレーニングデータの規模を拡大することによって、多くのタスクにおいて顕著な熟練を達成した。しかし、高品質な3Dデータを取得することの難しさもあって、3Dビジョンタスクは同じ進歩を見せていない。本研究では,1000万以上の3dオブジェクトのデータセットobjaverse-xlを提案する。我々のデータセットは、手動でデザインされたオブジェクト、ランドマークや日常のアイテムのフォトグラムスキャン、歴史的、古美術品のプロのスキャンを含む、さまざまなソースから3Dオブジェクトを分離する。 Objaverse-XLは3Dデータセットの領域で最大のスケールと多様性を表現し、3Dビジョンのための大きな新しい可能性を提供します。実験はobjaverse-xlのスケールで実現された改善を示す。 1億以上のマルチビューレンダリング画像を用いて,ゼロ123を新規なビュー合成にトレーニングすることで,強力なゼロショット一般化能力が得られることを示す。 Objaverse-XLをリリースすることで、大規模な3Dビジョンの分野でさらなるイノベーションが可能になることを願っています。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
Objaverse++: Curated 3D Object Dataset with Quality Annotations [5.483023265209163]
本稿では,人間の専門家による詳細なアノテーションを付加した,逆のキュレートされたサブセットであるaverse++について述べる。逆キュレーションは利用可能な3Dアセットコレクションとしては最大であるが、その実用性は低品質モデルの制限によって制限されている。
論文参考訳（メタデータ） (2025-04-09T23:29:08Z)
Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。 1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文参考訳（メタデータ） (2024-06-25T10:20:44Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文参考訳（メタデータ） (2023-10-04T06:14:06Z)
3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文参考訳（メタデータ） (2023-05-04T17:56:48Z)
OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。 190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文参考訳（メタデータ） (2023-01-18T18:14:18Z)
Objaverse: A Universe of Annotated 3D Objects [53.2537614157313]
800K以上の(そして成長する)3Dモデルと記述タグ,キャプション,アニメーションを備えたオブジェクトの大規模なデータセットであるAverse 1.0を提示する。多様な3Dモデルのトレーニング、LVISベンチマークでのテールカテゴリセグメンテーションの改善、エンボディードビジョンモデルのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、そしてビジョンモデルのロバストネス分析のための新しいベンチマークを作成する。
論文参考訳（メタデータ） (2022-12-15T18:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。