論文の概要: ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes
- arxiv url: http://arxiv.org/abs/2308.11417v1
- Date: Tue, 22 Aug 2023 13:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:10:40.564854
- Title: ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes
- Title(参考訳): ScanNet++:3D屋内シーンの高忠実なデータセット
- Authors: Chandan Yeshwanth, Yueh-Cheng Liu, Matthias Nie{\ss}ner, Angela Dai
- Abstract要約: ScanNet++は、屋内シーンの高品質でコモディティレベルの幾何と色を一緒にキャプチャする、大規模なデータセットである。
ScanNet++には460のシーン、280,000のDSLRイメージと370万以上のiPhone RGBDフレームが含まれている。
- 参考スコア(独自算出の注目度): 26.256081261056202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ScanNet++, a large-scale dataset that couples together capture of
high-quality and commodity-level geometry and color of indoor scenes. Each
scene is captured with a high-end laser scanner at sub-millimeter resolution,
along with registered 33-megapixel images from a DSLR camera, and RGB-D streams
from an iPhone. Scene reconstructions are further annotated with an open
vocabulary of semantics, with label-ambiguous scenarios explicitly annotated
for comprehensive semantic understanding. ScanNet++ enables a new real-world
benchmark for novel view synthesis, both from high-quality RGB capture, and
importantly also from commodity-level images, in addition to a new benchmark
for 3D semantic scene understanding that comprehensively encapsulates diverse
and ambiguous semantic labeling scenarios. Currently, ScanNet++ contains 460
scenes, 280,000 captured DSLR images, and over 3.7M iPhone RGBD frames.
- Abstract(参考訳): これは高品質で商品レベルの幾何学と室内シーンの色を結合した大規模データセットである。
各シーンは、デジタル一眼レフカメラからの33メガピクセルの画像とiphoneからのrgb-dストリームとともに、サブミリメートルのハイエンドレーザースキャナーで撮影される。
シーン再構成はさらに意味論のオープンな語彙で注釈付けされ、ラベルとあいまいなシナリオは包括的意味理解のために明示的に注釈付けされる。
scannet++は、高品質なrgbキャプチャと商品レベルのイメージの両方から、新しいビュー合成のための新しい実世界ベンチマークを可能にするとともに、多様であいまいなセマンティックラベリングシナリオを包括的にカプセル化する3dセマンティックシーン理解のための新しいベンチマークも提供する。
現在、ScanNet++には460のシーン、280,000のDSLRイメージと370万以上のiPhone RGBDフレームが含まれている。
関連論文リスト
- Novel View Synthesis from a Single RGBD Image for Indoor Scenes [4.292698270662031]
単一RGBD(Red Green Blue-Depth)入力から新しいビューイメージを合成する手法を提案する。
本手法では,RGBD画像を点雲に変換し,異なる視点からレンダリングし,NVSタスクを画像翻訳問題に変換する。
論文 参考訳(メタデータ) (2023-11-02T08:34:07Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and
Pose Annotations [64.95582364215548]
NAVIは、高品質な3Dスキャンと画像ごとの2D-3Dアライメントを備えたカテゴリに依存しない画像コレクションの新しいデータセットである。
これらの2D-3Dアライメントにより,高密度画素対応,深度,セグメンテーションマップなどの正確な微分アノテーションを抽出できる。
論文 参考訳(メタデータ) (2023-06-15T13:11:30Z) - HSCNet++: Hierarchical Scene Coordinate Classification and Regression
for Visual Localization with Transformer [23.920690073252636]
本稿では,1枚のRGB画像から画素シーン座標を粗い方法で予測する階層的なシーン座標ネットワークを提案する。
提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
論文 参考訳(メタデータ) (2023-05-05T15:00:14Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Dynamic 3D Scene Analysis by Point Cloud Accumulation [32.491921765128936]
マルチビームLiDARセンサーは、自動運転車や移動ロボットに使われている。
各フレームは、角度のスキャンの解像度と閉塞が制限されているため、わずかにシーンをカバーしている。
本研究では,屋外の街路景観の帰納的バイアスを利用して,その幾何学的レイアウトとオブジェクトレベルの剛性を求める手法を提案する。
論文 参考訳(メタデータ) (2022-07-25T17:57:46Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Scan2Part: Fine-grained and Hierarchical Part-level Understanding of
Real-World 3D Scans [68.98085986594411]
本研究では,実世界の雑音の多い屋内RGB-Dスキャンにおいて,オブジェクトの個々の部分を分割するScan2Partを提案する。
基礎となる3Dスキャン幾何の微細な詳細をキャプチャする、スパースなU-Netベースのアーキテクチャを用いています。
出力として、幾何が粗い、あるいは部分的に欠落している場合でも、オブジェクトごとの細かいラベルを予測できる。
論文 参考訳(メタデータ) (2022-06-06T05:43:10Z) - Towers of Babel: Combining Images, Language, and 3D Geometry for
Learning Multimodal Vision [50.07532560364523]
本稿では,字幕と階層的カテゴリ名という形で記述テキストを含む,ランドマーク写真コレクションの大規模データセットを提案する。
WikiScenesは、画像、テキスト、および3D幾何学を含むマルチモーダル推論のための新しいテストベッドを形成する。
論文 参考訳(メタデータ) (2021-08-12T17:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。