論文の概要: SSCBench: Monocular 3D Semantic Scene Completion Benchmark in Street
Views
- arxiv url: http://arxiv.org/abs/2306.09001v2
- Date: Sat, 30 Sep 2023 01:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:04:08.845906
- Title: SSCBench: Monocular 3D Semantic Scene Completion Benchmark in Street
Views
- Title(参考訳): SSCBench:ストリートビューにおける単眼3Dセマンティックシーンコンプリートベンチマーク
- Authors: Yiming Li, Sihang Li, Xinhao Liu, Moonjun Gong, Kenan Li, Nuo Chen,
Zijun Wang, Zhiheng Li, Tao Jiang, Fisher Yu, Yue Wang, Hang Zhao, Zhiding
Yu, Chen Feng
- Abstract要約: SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
- 参考スコア(独自算出の注目度): 89.8436375840446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular scene understanding is a foundational component of autonomous
systems. Within the spectrum of monocular perception topics, one crucial and
useful task for holistic 3D scene understanding is semantic scene completion
(SSC), which jointly completes semantic information and geometric details from
RGB input. However, progress in SSC, particularly in large-scale street views,
is hindered by the scarcity of high-quality datasets. To address this issue, we
introduce SSCBench, a comprehensive benchmark that integrates scenes from
widely used automotive datasets (e.g., KITTI-360, nuScenes, and Waymo).
SSCBench follows an established setup and format in the community, facilitating
the easy exploration of SSC methods in various street views. We benchmark
models using monocular, trinocular, and point cloud input to assess the
performance gap resulting from sensor coverage and modality. Moreover, we have
unified semantic labels across diverse datasets to simplify cross-domain
generalization testing. We commit to including more datasets and SSC models to
drive further advancements in this field.
- Abstract(参考訳): 単眼的シーン理解は自律システムの基本的な構成要素である。
単眼の知覚トピックのスペクトルの中で、総合的な3Dシーン理解のための重要かつ有用なタスクは意味的シーン補完(SSC)であり、RGB入力から意味情報と幾何学的詳細を共同で完成する。
しかし、特に大規模ストリートビューにおけるSSCの進歩は、高品質なデータセットの不足によって妨げられている。
SSCBenchは、広く使用されている自動車データセット(KITTI-360、nuScenes、Waymoなど)のシーンを統合する包括的なベンチマークである。
SSCBenchはコミュニティで確立された設定とフォーマットに従い、様々なストリートビューでのSSCメソッドの探索を容易にする。
我々は,センサカバレッジとモダリティに起因するパフォーマンスギャップを評価するために,単眼,三眼,点クラウド入力を用いたモデルベンチマークを行った。
さらに、さまざまなデータセットにまたがるセマンティックラベルを統一し、ドメイン間の一般化テストを簡単にします。
この分野のさらなる進歩を促進するために、より多くのデータセットとSSCモデルを含めることを約束します。
関連論文リスト
- DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - SAI3D: Segment Any Instance in 3D Scenes [72.65788433148309]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
Scan-Netとより挑戦的なScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [20.876048262597255]
セマンティック・シーン・コンプリート (SSC) は, 限られた観察結果から, 3次元シーン全体における各ボクセルのセマンティック・コンプリート(セマンティック・シーン・コンプリート)を予測することを目的としている。
本稿では,SGNと呼ばれるエンドツーエンドカメラベースのSSCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-11T14:19:05Z) - SSC-RS: Elevate LiDAR Semantic Scene Completion with Representation
Separation and BEV Fusion [17.459062337718677]
本稿では,表現分離とBEV融合の観点から,屋外SSCを解くことを提案する。
本稿では,SSC-RSと命名されたネットワークについて述べる。このネットワークは,意味的および幾何学的表現の学習手順を明示的に切り離すために,深い監督を伴う分岐を用いている。
提案したAdaptive Representation Fusion (ARF) モジュールを備えたBEV融合ネットワークを用いて, マルチスケール特徴を効果的かつ効率的に集約する。
論文 参考訳(メタデータ) (2023-06-27T10:02:45Z) - MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense
Top-View Understanding [27.867824780748606]
運転シーンの高密度トップビュー理解のためのマルチアテンショナルセマンティックモデルMASSを紹介する。
本フレームワークは柱状および占有的特徴に基づいており、3つの注目型ビルディングブロックから構成されている。
本モデルは,KITTI-3Dデータセット上での3次元物体検出に極めて有効であることが示されている。
論文 参考訳(メタデータ) (2021-07-01T10:19:32Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z) - Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial
Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。
データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文 参考訳(メタデータ) (2020-12-23T21:48:47Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。