論文の概要: DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
- arxiv url: http://arxiv.org/abs/2312.16256v1
- Date: Tue, 26 Dec 2023 01:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:16:48.062331
- Title: DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
- Title(参考訳): DL3DV-10K:ディープラーニングに基づく3Dビジョンのための大規模シーンデータセット
- Authors: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan,
Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan
Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang,
Bedrich Benes, Aniket Bera
- Abstract要約: 65種類のPOI(point-of-interest)ロケーションから撮影された10,510ビデオから51.2万フレームの大規模なシーンデータセットであるDL3DV-10Kを提示する。
我々は, DL3DV-10Kにおける最近のNVS手法のベンチマークを行い, 今後のNVS研究に有用な知見を明らかにした。
- 参考スコア(独自算出の注目度): 33.95494174572997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.
- Abstract(参考訳): 我々は、ニューラルレイディアンス場(NeRF)に基づく3次元表現学習から、新しいビュー合成(NVS)への応用まで、ディープラーニングに基づく3次元視覚の進歩を目の当たりにしてきた。
しかし、ディープラーニングに基づく3Dビジョンのための既存のシーンレベルのデータセットは、合成環境か現実世界のシーンの限られた選択に限られており、非常に不十分である。
この不十分さは、既存の方法の包括的なベンチマークを妨げるだけでなく、深層学習に基づく3d分析で探せることの欠如を損なう。
この重要なギャップに対処するため、DL3DV-10Kは大規模なシーンデータセットで、65種類のPOI(point-of-interest)位置から撮影された10,510の動画から51.2万フレームを特徴としている。
我々は, DL3DV-10Kにおける最近のNVS手法の総合的なベンチマークを行い, 今後のNVS研究に有用な知見を明らかにした。
さらに, DL3DV-10Kから一般化可能なNeRFを学習するためのパイロット実験の結果を得た。
私たちのDL3DV-10Kデータセット、ベンチマーク結果、モデルはhttps://dl3dv-10k.github.io/DL3DV-10K/で公開されます。
関連論文リスト
- Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Objaverse: A Universe of Annotated 3D Objects [53.2537614157313]
800K以上の(そして成長する)3Dモデルと記述タグ,キャプション,アニメーションを備えたオブジェクトの大規模なデータセットであるAverse 1.0を提示する。
多様な3Dモデルのトレーニング、LVISベンチマークでのテールカテゴリセグメンテーションの改善、エンボディードビジョンモデルのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、そしてビジョンモデルのロバストネス分析のための新しいベンチマークを作成する。
論文 参考訳(メタデータ) (2022-12-15T18:56:53Z) - ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved
Visio-Linguistic Models in 3D Scenes [48.65360357173095]
ScanEnts3D(ScanEnts3D)データセットは、84kの自然参照文にわたる369kオブジェクト間の明示的な対応を提供する。
この新たなデータセットから学習できる直感的な損失を取り入れることで、最近導入されたニューラルリスニングアーキテクチャの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-12-12T21:25:58Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。