論文の概要: SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2306.09001v3
- Date: Mon, 30 Sep 2024 13:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:01.644840
- Title: SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving
- Title(参考訳): SSCBench: 自動運転のための大規模3Dセマンティックシーンコンプリートベンチマーク
- Authors: Yiming Li, Sihang Li, Xinhao Liu, Moonjun Gong, Kenan Li, Nuo Chen, Zijun Wang, Zhiheng Li, Tao Jiang, Fisher Yu, Yue Wang, Hang Zhao, Zhiding Yu, Chen Feng,
- Abstract要約: SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
- 参考スコア(独自算出の注目度): 87.8761593366609
- License:
- Abstract: Monocular scene understanding is a foundational component of autonomous systems. Within the spectrum of monocular perception topics, one crucial and useful task for holistic 3D scene understanding is semantic scene completion (SSC), which jointly completes semantic information and geometric details from RGB input. However, progress in SSC, particularly in large-scale street views, is hindered by the scarcity of high-quality datasets. To address this issue, we introduce SSCBench, a comprehensive benchmark that integrates scenes from widely used automotive datasets (e.g., KITTI-360, nuScenes, and Waymo). SSCBench follows an established setup and format in the community, facilitating the easy exploration of SSC methods in various street views. We benchmark models using monocular, trinocular, and point cloud input to assess the performance gap resulting from sensor coverage and modality. Moreover, we have unified semantic labels across diverse datasets to simplify cross-domain generalization testing. We commit to including more datasets and SSC models to drive further advancements in this field.
- Abstract(参考訳): 単眼のシーン理解は自律システムの基本的な構成要素である。
単眼の知覚トピックのスペクトルの中で、総合的な3Dシーン理解のための重要かつ有用なタスクは意味的シーン補完(SSC)であり、RGB入力から意味情報と幾何学的詳細を共同で完成する。
しかし、特に大規模ストリートビューにおけるSSCの進歩は、高品質なデータセットの不足によって妨げられている。
SSCBenchは、広く使われている自動車データセット(例えば、KITTI-360、nuScenes、Waymo)のシーンを統合する包括的なベンチマークである。
SSCBenchはコミュニティで確立された設定とフォーマットに従い、様々なストリートビューでのSSCメソッドの探索を容易にする。
我々は、単眼、三眼、点雲入力を用いたモデルを用いて、センサのカバレッジとモダリティによる性能ギャップを評価する。
さらに、ドメイン間の一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
この分野のさらなる進歩を促進するために、より多くのデータセットとSSCモデルを含めることを約束します。
関連論文リスト
- MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [20.876048262597255]
セマンティック・シーン・コンプリート (SSC) は, 限られた観察結果から, 3次元シーン全体における各ボクセルのセマンティック・コンプリート(セマンティック・シーン・コンプリート)を予測することを目的としている。
本稿では,SGNと呼ばれるエンドツーエンドカメラベースのSSCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - SSC-RS: Elevate LiDAR Semantic Scene Completion with Representation
Separation and BEV Fusion [17.459062337718677]
本稿では,表現分離とBEV融合の観点から,屋外SSCを解くことを提案する。
本稿では,SSC-RSと命名されたネットワークについて述べる。このネットワークは,意味的および幾何学的表現の学習手順を明示的に切り離すために,深い監督を伴う分岐を用いている。
提案したAdaptive Representation Fusion (ARF) モジュールを備えたBEV融合ネットワークを用いて, マルチスケール特徴を効果的かつ効率的に集約する。
論文 参考訳(メタデータ) (2023-06-27T10:02:45Z) - MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense
Top-View Understanding [27.867824780748606]
運転シーンの高密度トップビュー理解のためのマルチアテンショナルセマンティックモデルMASSを紹介する。
本フレームワークは柱状および占有的特徴に基づいており、3つの注目型ビルディングブロックから構成されている。
本モデルは,KITTI-3Dデータセット上での3次元物体検出に極めて有効であることが示されている。
論文 参考訳(メタデータ) (2021-07-01T10:19:32Z) - Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial
Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。
データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文 参考訳(メタデータ) (2020-12-23T21:48:47Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。