論文の概要: Monocular Occupancy Prediction for Scalable Indoor Scenes
- arxiv url: http://arxiv.org/abs/2407.11730v1
- Date: Tue, 16 Jul 2024 13:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:52:24.944393
- Title: Monocular Occupancy Prediction for Scalable Indoor Scenes
- Title(参考訳): 拡張性屋内シーンにおける単眼活動予測
- Authors: Hongxiao Yu, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang,
- Abstract要約: そこで本研究では,モノクロ画像を用いた屋内シーン占有率の予測手法であるISOを提案する。
ISOは、事前訓練された深度モデルの利点を利用して正確な深度予測を行う。
Occ-ScanNetは屋内シーンの大規模占有ベンチマークである。
- 参考スコア(独自算出の注目度): 56.686307396496545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based 3D occupancy prediction has recently garnered increasing attention in outdoor driving scenes. However, research in indoor scenes remains relatively unexplored. The core differences in indoor scenes lie in the complexity of scene scale and the variance in object size. In this paper, we propose a novel method, named ISO, for predicting indoor scene occupancy using monocular images. ISO harnesses the advantages of a pretrained depth model to achieve accurate depth predictions. Furthermore, we introduce the Dual Feature Line of Sight Projection (D-FLoSP) module within ISO, which enhances the learning of 3D voxel features. To foster further research in this domain, we introduce Occ-ScanNet, a large-scale occupancy benchmark for indoor scenes. With a dataset size 40 times larger than the NYUv2 dataset, it facilitates future scalable research in indoor scene analysis. Experimental results on both NYUv2 and Occ-ScanNet demonstrate that our method achieves state-of-the-art performance. The dataset and code are made publicly at https://github.com/hongxiaoy/ISO.git.
- Abstract(参考訳): カメラによる3D占有予測は、最近、屋外の運転シーンで注目を集めている。
しかし、屋内の場面での研究は、いまだに未調査である。
屋内シーンにおける中核的な違いは、シーンスケールの複雑さとオブジェクトサイズのばらつきにある。
本稿では,モノクロ画像を用いた屋内シーンの占有率の予測手法であるISOを提案する。
ISOは、事前訓練された深度モデルの利点を利用して正確な深度予測を行う。
さらに,ISO内にD-FLoSP(Dual Feature Line of Sight Projection, D-FLoSP)モジュールを導入した。
この領域におけるさらなる研究を促進するために,屋内シーンの大規模占有ベンチマークであるOcc-ScanNetを紹介する。
データセットのサイズはNYUv2データセットの40倍で、屋内シーン分析における将来のスケーラブルな研究を促進する。
また,NYUv2 と Occ-ScanNet による実験結果から,本手法が最先端の性能を実現することを示す。
データセットとコードはhttps://github.com/hongxiaoy/ISO.git.comで公開されている。
関連論文リスト
- ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文 参考訳(メタデータ) (2024-11-24T04:51:24Z) - Deeper into Self-Supervised Monocular Indoor Depth Estimation [7.30562653023176]
単分子配列から室内深度を自己教師付きで学習することは、研究者にとって非常に難しい。
本研究では,IndoorDepthという手法を2つのイノベーションから構成する。
NYUv2ベンチマークの実験では、私たちのIndoorDepthは従来の最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-03T04:55:32Z) - InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation [22.287982980942235]
InSpaceTypeで12のメソッドをベンチマークし、スペースタイプに関するパフォーマンスの不均衡に苦しむことを発見した。
分析を他の4つのデータセットに拡張し、3つの緩和アプローチと、目に見えない空間タイプに一般化する能力を提供します。
論文 参考訳(メタデータ) (2023-09-24T00:39:41Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - Guiding Monocular Depth Estimation Using Depth-Attention Volume [38.92495189498365]
本研究では,特に屋内環境に広く分布する平面構造を優先するための奥行き推定法を提案する。
2つのポピュラーな屋内データセットであるNYU-Depth-v2とScanNetの実験により,本手法が最先端の深度推定結果を実現することを示す。
論文 参考訳(メタデータ) (2020-04-06T15:45:52Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。