論文の概要: Real-Time 2D LiDAR Object Detection Using Three-Frame RGB Scan Encoding
- arxiv url: http://arxiv.org/abs/2602.02167v1
- Date: Mon, 02 Feb 2026 14:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.220043
- Title: Real-Time 2D LiDAR Object Detection Using Three-Frame RGB Scan Encoding
- Title(参考訳): 3フレームRGBスキャン符号化によるリアルタイム2次元LiDAR物体検出
- Authors: Soheil Behnam Roudsari, Alexandre S. Brandão, Felipe N. Martins,
- Abstract要約: 3つの連続走査をRGBチャネルとして積み重ねることで、短時間の時間的コンテキストを符号化するカメラレス2次元LiDARオブジェクト検出パイプラインを提案する。
Raspberry Pi 5上では、スキャンエンコーディングや後処理を含む、1フレームあたり平均47.8msの、ウォームアップ後のエンドツーエンドのレイテンシで、リアルタイムで実行される。
シミュレーションベースではあるものの,軽量なテンポラリエンコーディングにより,RGBの外観を捉えることなく,高精度かつリアルタイムなLiDAR検出が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 39.146761527401424
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Indoor service robots need perception that is robust, more privacy-friendly than RGB video, and feasible on embedded hardware. We present a camera-free 2D LiDAR object detection pipeline that encodes short-term temporal context by stacking three consecutive scans as RGB channels, yielding a compact YOLOv8n input without occupancy-grid construction while preserving angular structure and motion cues. Evaluated in Webots across 160 randomized indoor scenarios with strict scenario-level holdout, the method achieves 98.4% mAP@0.5 (0.778 mAP@0.5:0.95) with 94.9% precision and 94.7% recall on four object classes. On a Raspberry Pi 5, it runs in real time with a mean post-warm-up end-to-end latency of 47.8ms per frame, including scan encoding and postprocessing. Relative to a closely related occupancy-grid LiDAR-YOLO pipeline reported on the same platform, the proposed representation is associated with substantially lower reported end-to-end latency. Although results are simulation-based, they suggest that lightweight temporal encoding can enable accurate and real-time LiDAR-only detection for embedded indoor robotics without capturing RGB appearance.
- Abstract(参考訳): 屋内サービスロボットは、RGBビデオよりも堅牢で、プライバシーに優しい、組込みハードウェアで実現可能な認識を必要とする。
カメラレス2次元LiDARオブジェクト検出パイプラインは、3つの連続走査をRGBチャネルとして重ねて、角構造と動きキューを保ちながら、占有格子構造を伴わずにコンパクトなYOLOv8n入力を生成することで、短期的時間文脈を符号化する。
厳密なシナリオレベルを持つ160のランダム化屋内シナリオのWebotで評価され、98.4% mAP@0.5 (0.778 mAP@0.5:0.95)を達成し、94.9%の精度と94.7%のリコールを4つのオブジェクトクラスで達成した。
Raspberry Pi 5上では、スキャンエンコーディングや後処理を含む、1フレームあたり平均47.8msの、ウォームアップ後のエンドツーエンドのレイテンシで、リアルタイムで実行される。
同じプラットフォーム上で報告された、密接な関連性を持つLiDAR-YOLOパイプラインと比較して、提案された表現は、報告されたエンドツーエンドのレイテンシを大幅に低下させる。
シミュレーションベースではあるものの,軽量なテンポラリエンコーディングにより,RGBの外観を捉えることなく,高精度かつリアルタイムなLiDAR検出が可能であることが示唆された。
関連論文リスト
- SwiTrack: Tri-State Switch for Cross-Modal Object Tracking [74.15663758681849]
クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモード間で切り替える間、ターゲットの一貫性を維持する新しいタスクである。
SwiTrackは3つの特別なストリームを配置することでCMOTを再定義する新しいステートスイッチングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T10:52:54Z) - EA: An Event Autoencoder for High-Speed Vision Sensing [0.9401004127785267]
イベントカメラは有望な代替手段を提供するが、スパースでノイズの多いイベントストリームによるオブジェクト検出には課題がある。
イベントデータを効率的に圧縮・再構成するイベントオートエンコーダアーキテクチャを提案する。
提案手法は, YOLO-v4モデルに匹敵する精度を達成し, パラメータを最大35.5倍に削減できることを示す。
論文 参考訳(メタデータ) (2025-07-09T00:21:15Z) - FastPillars: A Deployment-friendly Pillar-based 3D Detector [63.0697065653061]
既存のBEVベースの(つまりバードアイビュー)検出器は、トレーニングと推論を高速化するためにスパース・コンボリューション(SPConv)を好む。
FastPillarsは、CenterPoint(SPConvベース)よりも1.8倍のスピードアップと3.8mAPH/L2の改善で、Openデータセットの最先端の精度を提供する
論文 参考訳(メタデータ) (2023-02-05T12:13:27Z) - Self-Aligning Depth-regularized Radiance Fields for Asynchronous RGB-D Sequences [12.799443250845224]
タイムスタンプを$rm SE(3)$要素にマッピングする暗黙のネットワークである。
提案アルゴリズムは,(1)時間的関数フィッティング,(2)放射場ブートストレッピング,(3)結合ポーズ誤差補償,および放射場改良の3段階からなる。
また,ドローンによってキャプチャされた実世界の非同期RGB-Dシーケンスに対して,定性的に改善された結果を示す。
論文 参考訳(メタデータ) (2022-11-14T15:37:27Z) - Low Latency Real-Time Seizure Detection Using Transfer Deep Learning [0.0]
スカルプ脳波(EEG)信号は本質的に低信号-雑音比を有する。
ディープラーニングを用いた発作検出における最も一般的なアプローチは、この情報を共同でモデル化したり、信号に複数のパスを必要とすることはない。
本稿では,マルチチャネル信号をグレースケール画像に変換すると同時に,転送学習を用いて高い性能を実現する。
論文 参考訳(メタデータ) (2022-02-16T00:03:00Z) - High-speed object detection with a single-photon time-of-flight image
sensor [2.648554238948439]
我々は,64×32の空間解像度で16ビンの光子タイミングヒストグラムを出力する携帯型SPADカメラシステムの結果を報告する。
結果は、人間の反応時間よりも早く恩恵を受けるであろう安全クリティカルなコンピュータビジョンアプリケーションに関係している。
論文 参考訳(メタデータ) (2021-07-28T14:53:44Z) - ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation [8.013823319651395]
ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
論文 参考訳(メタデータ) (2021-02-26T14:06:31Z) - StrObe: Streaming Object Detection from LiDAR Packets [73.27333924964306]
ローリングシャッターのLiDARはパケットのストリームとして出力され、それぞれ360degのカバレッジのセクターをカバーする。
現代の認識アルゴリズムは、データを処理する前に全スイープが構築されるのを待つ。
本稿では,LiDARパケットを取り込み,全スイープが構築されるのを待たずに検出ストリームを出力することで,レイテンシを最小化する新しいアプローチであるStrObeを提案する。
論文 参考訳(メタデータ) (2020-11-12T14:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。