論文の概要: Adaptive LiDAR Scanning: Harnessing Temporal Cues for Efficient 3D Object Detection via Multi-Modal Fusion
- arxiv url: http://arxiv.org/abs/2508.01562v1
- Date: Sun, 03 Aug 2025 03:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.941895
- Title: Adaptive LiDAR Scanning: Harnessing Temporal Cues for Efficient 3D Object Detection via Multi-Modal Fusion
- Title(参考訳): 適応LiDARスキャン:多モード融合による高能率3次元物体検出のための時間的キューのハーネス化
- Authors: Sara Shoouri, Morteza Tavakoli Taba, Hun-Seok Kim,
- Abstract要約: 従来のLiDARセンサーは、現実世界のシーンの強い時間的連続性を無視して、密度の高いステートレススキャンを行う。
本研究では,過去の観測結果に基づいて,興味のある情報領域を推定する,予測的かつ歴史に配慮した適応型スキャンフレームワークを提案する。
本手法は,これらのROI内にのみ高密度LiDARスキャンを集中させることにより,不要なデータ取得を著しく削減する。
- 参考スコア(独自算出の注目度): 11.351728925952193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-sensor fusion using LiDAR and RGB cameras significantly enhances 3D object detection task. However, conventional LiDAR sensors perform dense, stateless scans, ignoring the strong temporal continuity in real-world scenes. This leads to substantial sensing redundancy and excessive power consumption, limiting their practicality on resource-constrained platforms. To address this inefficiency, we propose a predictive, history-aware adaptive scanning framework that anticipates informative regions of interest (ROI) based on past observations. Our approach introduces a lightweight predictor network that distills historical spatial and temporal contexts into refined query embeddings. These embeddings guide a differentiable Mask Generator network, which leverages Gumbel-Softmax sampling to produce binary masks identifying critical ROIs for the upcoming frame. Our method significantly reduces unnecessary data acquisition by concentrating dense LiDAR scanning only within these ROIs and sparsely sampling elsewhere. Experiments on nuScenes and Lyft benchmarks demonstrate that our adaptive scanning strategy reduces LiDAR energy consumption by over 65% while maintaining competitive or even superior 3D object detection performance compared to traditional LiDAR-camera fusion methods with dense LiDAR scanning.
- Abstract(参考訳): LiDARとRGBカメラを用いたマルチセンサフュージョンは、3Dオブジェクト検出タスクを大幅に強化する。
しかし、従来のLiDARセンサーは、現実世界のシーンの強い時間的連続性を無視して、密度の高いステートレススキャンを行う。
これにより、かなりの冗長性と過度の電力消費が生じ、資源制約されたプラットフォームでの実用性が制限される。
この非効率性に対処するために,過去の観測結果に基づいて情報伝達領域(ROI)を予測する,予測的かつ履歴対応の適応型スキャンフレームワークを提案する。
提案手法では,歴史的空間的・時間的文脈を精巧なクエリ埋め込みに抽出する軽量な予測ネットワークを提案する。
これらの埋め込みは、Gumbel-Softmaxサンプリングを利用して、次のフレームの重要なROIを特定するバイナリマスクを生成する、微分可能なマスクジェネレータネットワークをガイドする。
本手法は,これらのROI内にのみ高密度LiDARスキャンを集中させることにより,不要なデータ取得を著しく削減する。
nuScenesとLyftベンチマークの実験では、当社の適応型スキャン戦略がLiDARのエネルギー消費量を65%以上削減し、高密度LiDARスキャンを用いた従来のLiDARカメラ融合法と比較して、競争力や優れた3Dオブジェクト検出性能を維持していることが示された。
関連論文リスト
- Blurred LiDAR for Sharper 3D: Robust Handheld 3D Scanning with Diffuse LiDAR and RGB [12.38882701862349]
3D表面の再構成は、仮想現実、ロボット工学、モバイルスキャンの応用において不可欠である。
RGBベースの再構築は、低テクスチャ、低照度、低アルベドシーンでしばしば失敗する。
我々は、拡散フラッシュを出力する代替のLiDARクラスを提案する。
論文 参考訳(メタデータ) (2024-11-29T05:01:23Z) - Gait Sequence Upsampling using Diffusion Models for Single LiDAR Sensors [1.0485739694839664]
LidarGSUは、既存の識別モデルの一般化能力を改善するように設計されている。
本研究は,ビデオ間翻訳手法における条件付きマスクとして,細かな歩行者点雲上のDPMを利用する。
提案手法では,SUSTeck1Kデータセットを用いて,生成品質と認識性能を評価する。
論文 参考訳(メタデータ) (2024-10-11T10:11:21Z) - LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting [50.808933338389686]
都市景観におけるLiDARスキャンをリアルタイムかつ高忠実に再現するLiDAR-GSを提案する。
この手法は,公開可能な大規模シーンデータセットのレンダリングフレームレートと品質の両面において,最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-07T15:07:56Z) - VaLID: Verification as Late Integration of Detections for LiDAR-Camera Fusion [2.503388496100123]
車両物体検出は、LiDARとカメラデータの両方から恩恵を受ける。
本稿では,各予測境界ボックスが許容可能であるかどうかを検証するモデル適応型遅延融合法VaLIDを提案する。
提案手法はモデル適応型であり,汎用カメラ検出器を用いた場合においても最先端の競争性能を示す。
論文 参考訳(メタデータ) (2024-09-23T20:27:10Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - TimePillars: Temporally-Recurrent 3D LiDAR Object Detection [8.955064958311517]
TimePillarsは時間的にリカレントなオブジェクト検出パイプラインである。
時間にわたってLiDARデータの柱表現を利用する。
基礎的なビルディングブロックがいかに堅牢で効率的な結果を得るのに十分なかを示す。
論文 参考訳(メタデータ) (2023-12-22T10:25:27Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object
Detection [96.63947479020631]
多くの現実世界の応用において、大量生産されたロボットや車両が使用するLiDARポイントは通常、大規模な公開データセットよりもビームが少ない。
異なるLiDARビームによって誘導される領域ギャップをブリッジして3次元物体検出を行うLiDAR蒸留法を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:59:02Z) - LiDARCap: Long-range Marker-less 3D Human Motion Capture with LiDAR
Point Clouds [58.402752909624716]
既存のモーションキャプチャデータセットはほとんどが短距離であり、まだ長距離アプリケーションのニーズに合わない。
我々は,この制限を克服するために,LiDARがより長い範囲で捉えた新しい人間のモーションキャプチャーデータセットLiDARHuman26Mを提案する。
我々のデータセットには、IMUシステムによって取得された人間の動きと同期RGB画像も含まれている。
論文 参考訳(メタデータ) (2022-03-28T12:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。