Fugu-MT 論文翻訳(概要): DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

論文の概要: DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

arxiv url: http://arxiv.org/abs/2312.16256v1
Date: Tue, 26 Dec 2023 01:12:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 20:16:48.062331
Title: DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
Title（参考訳）: DL3DV-10K:ディープラーニングに基づく3Dビジョンのための大規模シーンデータセット
Authors: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
Abstract要約: 65種類のPOI(point-of-interest)ロケーションから撮影された10,510ビデオから51.2万フレームの大規模なシーンデータセットであるDL3DV-10Kを提示する。我々は, DL3DV-10Kにおける最近のNVS手法のベンチマークを行い, 今後のNVS研究に有用な知見を明らかにした。
参考スコア（独自算出の注目度）: 33.95494174572997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We have witnessed significant progress in deep learning-based 3D vision, ranging from neural radiance field (NeRF) based 3D representation learning to applications in novel view synthesis (NVS). However, existing scene-level datasets for deep learning-based 3D vision, limited to either synthetic environments or a narrow selection of real-world scenes, are quite insufficient. This insufficiency not only hinders a comprehensive benchmark of existing methods but also caps what could be explored in deep learning-based 3D analysis. To address this critical gap, we present DL3DV-10K, a large-scale scene dataset, featuring 51.2 million frames from 10,510 videos captured from 65 types of point-of-interest (POI) locations, covering both bounded and unbounded scenes, with different levels of reflection, transparency, and lighting. We conducted a comprehensive benchmark of recent NVS methods on DL3DV-10K, which revealed valuable insights for future research in NVS. In addition, we have obtained encouraging results in a pilot study to learn generalizable NeRF from DL3DV-10K, which manifests the necessity of a large-scale scene-level dataset to forge a path toward a foundation model for learning 3D representation. Our DL3DV-10K dataset, benchmark results, and models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.
Abstract（参考訳）: 我々は、ニューラルレイディアンス場(NeRF)に基づく3次元表現学習から、新しいビュー合成(NVS)への応用まで、ディープラーニングに基づく3次元視覚の進歩を目の当たりにしてきた。しかし、ディープラーニングに基づく3Dビジョンのための既存のシーンレベルのデータセットは、合成環境か現実世界のシーンの限られた選択に限られており、非常に不十分である。この不十分さは、既存の方法の包括的なベンチマークを妨げるだけでなく、深層学習に基づく3d分析で探せることの欠如を損なう。この重要なギャップに対処するため、DL3DV-10Kは大規模なシーンデータセットで、65種類のPOI(point-of-interest)位置から撮影された10,510の動画から51.2万フレームを特徴としている。我々は, DL3DV-10Kにおける最近のNVS手法の総合的なベンチマークを行い, 今後のNVS研究に有用な知見を明らかにした。さらに, DL3DV-10Kから一般化可能なNeRFを学習するためのパイロット実験の結果を得た。私たちのDL3DV-10Kデータセット、ベンチマーク結果、モデルはhttps://dl3dv-10k.github.io/DL3DV-10K/で公開されます。

関連論文リスト

Sparse Multiview Open-Vocabulary 3D Detection [27.57172918603858]
3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
論文参考訳（メタデータ） (2025-09-19T12:22:24Z)
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding [11.069512983766783]
大規模視覚言語モデル(VLM)は2次元視覚理解タスクにおいて大きな進歩を遂げている。本稿では,3次元VLMの推論能力を高める基礎モデルである3D-R1を提案する。大規模な実験によると、3D-R1は様々な3Dシーンベンチマークで平均10%改善されている。
論文参考訳（メタデータ） (2025-07-31T11:59:06Z)
SPAZER: Spatial-Semantic Progressive Reasoning Agent for Zero-shot 3D Visual Grounding [44.82926606018167]
3D Visual Groundingは、自然言語クエリに基づいて、ターゲットオブジェクトを3Dシーン内にローカライズすることを目的としている。本稿では,VLM駆動型エージェントであるSPAZERについて述べる。 ScanRefer と Nr3D ベンチマークの実験では、SPAZER が従来のゼロショット法よりも大幅に優れていたことが示されている。
論文参考訳（メタデータ） (2025-06-27T05:34:57Z)
3D Question Answering via only 2D Vision-Language Models [87.41421075243103]
大規模視覚言語モデル(LVLM)は、多くの分野を進歩させた。代表的な例として,3次元質問応答(3D-QA)を用いた3次元シーン理解タスクの活用について検討する。具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
論文参考訳（メタデータ） (2025-05-28T09:04:39Z)
DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文参考訳（メタデータ） (2025-03-26T04:23:53Z)
SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining [100.23919762298227]
SceneSplatは,3DGS上で動作する最初の大規模屋内シーン理解手法である。また,ラベルのないシーンからリッチな3D特徴学習を解放する自己教師型学習手法を提案する。 SceneSplat-7Kは、6868シーンからなる屋内シーンのための最初の大規模3DGSデータセットである。
論文参考訳（メタデータ） (2025-03-23T12:50:25Z)
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。 VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-17T17:59:55Z)
OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文参考訳（メタデータ） (2024-07-08T05:03:46Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
OpenDlign: Open-World Point Cloud Understanding with Depth-Aligned Images [17.344430840048094]
マルチモーダルアライメントのための奥行き整合画像を用いたオープンワールド3DモデルOpenDlignを提案する。 OpenDlignは、600万のパラメータを微調整するだけで、多様な3Dタスクで高いゼロショットと少数ショットのパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-25T11:53:36Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes [48.65360357173095]
ScanEnts3D(ScanEnts3D)データセットは、84kの自然参照文にわたる369kオブジェクト間の明示的な対応を提供する。この新たなデータセットから学習できる直感的な損失を取り入れることで、最近導入されたニューラルリスニングアーキテクチャの性能を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-12-12T21:25:58Z)
Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文参考訳（メタデータ） (2022-09-29T11:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。