論文の概要: DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
- arxiv url: http://arxiv.org/abs/2312.16256v2
- Date: Fri, 29 Dec 2023 08:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:51:21.063987
- Title: DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
- Title(参考訳): DL3DV-10K:ディープラーニングに基づく3Dビジョンのための大規模シーンデータセット
- Authors: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan,
Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan
Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianyi Zhang,
Bedrich Benes, Aniket Bera
- Abstract要約: 65種類のPOI(point-of-interest)ロケーションから撮影された10,510ビデオから51.2万フレームの大規模なシーンデータセットであるDL3DV-10Kを提示する。
我々は, DL3DV-10Kにおける最近のNVS手法のベンチマークを行い, 今後のNVS研究に有用な知見を明らかにした。
- 参考スコア(独自算出の注目度): 37.41605399169881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.
- Abstract(参考訳): 我々は、ニューラルレイディアンス場(NeRF)に基づく3次元表現学習から、新しいビュー合成(NVS)への応用まで、ディープラーニングに基づく3次元視覚の進歩を目の当たりにしてきた。
しかし、ディープラーニングに基づく3Dビジョンのための既存のシーンレベルのデータセットは、合成環境か現実世界のシーンの限られた選択に限られており、非常に不十分である。
この不十分さは、既存の方法の包括的なベンチマークを妨げるだけでなく、深層学習に基づく3d分析で探せることの欠如を損なう。
この重要なギャップに対処するため、DL3DV-10Kは大規模なシーンデータセットで、65種類のPOI(point-of-interest)位置から撮影された10,510の動画から51.2万フレームを特徴としている。
我々は, DL3DV-10Kにおける最近のNVS手法の総合的なベンチマークを行い, 今後のNVS研究に有用な知見を明らかにした。
さらに, DL3DV-10Kから一般化可能なNeRFを学習するためのパイロット実験の結果を得た。
私たちのDL3DV-10Kデータセット、ベンチマーク結果、モデルはhttps://dl3dv-10k.github.io/DL3DV-10K/で公開されます。
関連論文リスト
- VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - OpenDlign: Open-World Point Cloud Understanding with Depth-Aligned Images [17.344430840048094]
マルチモーダルアライメントのための奥行き整合画像を用いたオープンワールド3DモデルOpenDlignを提案する。
OpenDlignは、600万のパラメータを微調整するだけで、多様な3Dタスクで高いゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-25T11:53:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved
Visio-Linguistic Models in 3D Scenes [48.65360357173095]
ScanEnts3D(ScanEnts3D)データセットは、84kの自然参照文にわたる369kオブジェクト間の明示的な対応を提供する。
この新たなデータセットから学習できる直感的な損失を取り入れることで、最近導入されたニューラルリスニングアーキテクチャの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-12-12T21:25:58Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。