論文の概要: Three Cars Approaching within 100m! Enhancing Distant Geometry by Tri-Axis Voxel Scanning for Camera-based Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2411.16129v1
- Date: Mon, 25 Nov 2024 06:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:35.551883
- Title: Three Cars Approaching within 100m! Enhancing Distant Geometry by Tri-Axis Voxel Scanning for Camera-based Semantic Scene Completion
- Title(参考訳): カメラを用いたセマンティックシーンコンプリートのための3軸ボクセルスキャンによる距離幾何学の強化
- Authors: Jongseong Bae, Junwoo Ha, Ha Young Kim,
- Abstract要約: ScanSSCは、Scan ModuleとScan Lossで構成されるカメラベースのセマンティックシーンコンプリートモデルである。
スキャンモジュールは軸方向のマスキングを使用しており、各軸は近距離から遠距離のカスケードマスキングを用いており、これは以前のボクセルとの関係を捉えることができる。
Scan Lossは累積ロジットとそれに対応するクラス分布のそれぞれの軸に沿って、近距離方向のクロスエントロピーを計算し、リッチなコンテキスト認識信号を遠くのボクセルに伝搬する。
- 参考スコア(独自算出の注目度): 4.369160691089653
- License:
- Abstract: Camera-based Semantic Scene Completion (SSC) is gaining attentions in the 3D perception field. However, properties such as perspective and occlusion lead to the underestimation of the geometry in distant regions, posing a critical issue for safety-focused autonomous driving systems. To tackle this, we propose ScanSSC, a novel camera-based SSC model composed of a Scan Module and Scan Loss, both designed to enhance distant scenes by leveraging context from near-viewpoint scenes. The Scan Module uses axis-wise masked attention, where each axis employing a near-to-far cascade masking that enables distant voxels to capture relationships with preceding voxels. In addition, the Scan Loss computes the cross-entropy along each axis between cumulative logits and corresponding class distributions in a near-to-far direction, thereby propagating rich context-aware signals to distant voxels. Leveraging the synergy between these components, ScanSSC achieves state-of-the-art performance, with IoUs of 44.54 and 48.29, and mIoUs of 17.40 and 20.14 on the SemanticKITTI and SSCBench-KITTI-360 benchmarks.
- Abstract(参考訳): カメラベースセマンティックシーンコンプリート(SSC)は3次元知覚領域において注目されている。
しかし、視点や閉塞といった特性は、遠隔地における幾何学の過小評価につながり、安全に焦点を当てた自動運転システムにとって重要な問題となっている。
そこで本稿では,ScanSSCを提案する。Scan ModuleとScan Lossで構成されたカメラベースの新しいSSCモデルである。
スキャンモジュールは軸方向のマスキングを使用しており、各軸は近距離から遠距離のカスケードマスキングを用いており、これは以前のボクセルとの関係を捉えることができる。
さらに、Scan Lossは累積ロジットと対応するクラス分布のそれぞれの軸に沿って、近距離方向のクロスエントロピーを計算し、リッチなコンテキスト認識信号を遠くのボクセルに伝搬する。
これらのコンポーネント間の相乗効果を活用して、ScanSSCは44.54と48.29のIoUと17.40と20.14のmIoUをSemanticKITTIとSSCBench-KITTI-360ベンチマークで達成した。
関連論文リスト
- DiffSSC: Semantic LiDAR Scan Completion using Denoising Diffusion Probabilistic Models [18.342569823885864]
3D LiDARセンサーは、車両の周囲の粗い点雲を捉えるために広く使われている。
このようなシステムは、これらの点雲の空白さと意味論の欠如により、隠蔽された領域と風景の隙間を知覚するのに苦労する。
我々は、より完全なシーン表現を目指して、生のLiDAR測定で得られたシーンにおける観測されていない幾何学と意味を共同で予測する。
論文 参考訳(メタデータ) (2024-09-26T17:39:05Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for
Monocular 3D Semantic Scene Completion [0.4662017507844857]
DepthSSCはモノクロカメラのみをベースとしたセマンティックシーン補完手法である。
従来の手法で観察された空間的不整合や歪みの問題を緩和する。
複雑な3D構造の詳細をキャプチャーし、最先端のパフォーマンスを実現する効果を実証する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - The Interstate-24 3D Dataset: a new benchmark for 3D multi-camera
vehicle tracking [4.799822253865053]
本研究は,道路交通カメラの重なり合う都市州間高速道路に沿って記録された新しい映像データセットを提示し,交通監視状況下でのマルチカメラ3Dオブジェクト追跡を可能にする。
データは、少なくとも16台のカメラのビデオを含む3つのシーンから解放され、合計で57分である。
877,000個の3Dバウンディングボックスと対応するオブジェクトトラックレットは、各カメラの視野に対して完全に正確に注釈付けされ、各シーンごとに空間的かつ時間的に連続した車両軌跡セットに結合される。
論文 参考訳(メタデータ) (2023-08-28T18:43:33Z) - SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving [87.8761593366609]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文 参考訳(メタデータ) (2023-06-15T09:56:33Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。