論文の概要: TriBand-BEV: Real-Time LiDAR-Only 3D Pedestrian Detection via Height-Aware BEV and High-Resolution Feature Fusion
- arxiv url: http://arxiv.org/abs/2605.12220v1
- Date: Tue, 12 May 2026 14:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.941622
- Title: TriBand-BEV: Real-Time LiDAR-Only 3D Pedestrian Detection via Height-Aware BEV and High-Resolution Feature Fusion
- Title(参考訳): TriBand-BEV:リアルタイムLiDAR-高度認識型BEVと高分解能融合による3次元歩行者検出
- Authors: Mohammad Khoshkdahan, Alexey Vinel,
- Abstract要約: 3つの高さ帯を持つ軽量の2次元BEVテンソルに全3次元LiDAR点雲をマッピングする新しい鳥眼図符号化法(BEV)を導入する。
1つのネットワークは、1回のパスで車、歩行者、サイクリストを検出する。
KITTIデータセットでは、TriBand-BEVは58.7/52.6/47.2の歩行者BEV AP(%)を1つの消費者向けGPU上で49 FPSで容易に、適度に、かつ困難に利用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe autonomous agents and mobile robots need fast real time 3D perception, especially for vulnerable road users (VRUs) such as pedestrians. We introduce a new bird's eye view (BEV) encoding, which maps the full 3D LiDAR point cloud into a light-weight 2D BEV tensor with three height bands. We explicitly reformulate 3D detection as a 2D detection problem and then reconstruct 3D boxes from the BEV outputs. A single network detects cars, pedestrians, and cyclists in one pass. The backbone uses area attention at deep stages, a hierarchical bidirectional neck over P1 to P4 fuses context and detail, and the head predicts oriented boxes with distribution focal learning for side offsets and a rotated IoU loss. Training applies a small vertical re bin and a mild reflectance jitter in channel space to resist memorization. We use an interquartile range (IQR) filter to remove noisy and outlier LiDAR points during 3D reconstruction. On KITTI dataset, TriBand-BEV attains 58.7/52.6/47.2 pedestrian BEV AP(%) for easy, moderate, and hard at 49 FPS on a single consumer GPU, surpassing Complex-YOLO, with gains of +12.6%, +7.5%, and +3.1%. Qualitative scenes show stable detection under occlusion. The pipeline is compact and ready for real time robotic deployment. Our source code is publicly available on GitHub.
- Abstract(参考訳): 安全な自律エージェントと移動ロボットは、特に歩行者のような脆弱な道路利用者(VRU)のために、高速なリアルタイム3D知覚を必要とする。
3つの高さ帯を持つ軽量の2次元BEVテンソルに全3次元LiDAR点雲をマッピングする新しい鳥眼図符号化法(BEV)を導入する。
2D検出問題として3D検出を明示的に修正し,BEV出力から3Dボックスを再構築する。
1つのネットワークは、1回のパスで車、歩行者、サイクリストを検出する。
バックボーンは深層部でエリアアテンションを使用し、P1〜P4上の階層的双方向ネックはコンテキストと詳細を融合し、ヘッドはサイドオフセットに対する分布焦点学習と回転したIoU損失を予測する。
トレーニングでは、小さな垂直リビンと穏やかな反射ジッタをチャネル空間に印加し、暗記に抵抗する。
IQRフィルタを用いて,3次元再構成時の雑音および外れ値のLiDAR点を除去する。
KITTIデータセットでは、TriBand-BEVが58.7/52.6/47.2の歩行者BEV AP(%)を1つのコンシューマGPU上で49 FPSで達成し、+12.6%、+7.5%、+3.1%を上回る。
定性的なシーンは、閉塞下で安定な検出を示す。
パイプラインはコンパクトで、リアルタイムのロボット展開の準備が整っている。
ソースコードはGitHubで公開されています。
関連論文リスト
- LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - BePo: Leveraging Birds Eye View and Sparse Points for Efficient and Accurate 3D Occupancy Prediction [38.9869091446875]
3D占有力は、シーン理解のためのきめ細かい3D幾何学と意味論を提供する。
バードアイビュー (Bird's Eye View, BEV) またはスパースポイント (sparse points) は、コストを大幅に削減したシーン表現であるが、それでもそれぞれの欠点に悩まされている。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法BePoを提案する。
論文 参考訳(メタデータ) (2025-06-08T05:19:02Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [54.48052449493636]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションにおいて重要な役割を果たす。
BEVTrackは、シンプルだが効果的な動きに基づくトラッキング手法である。
我々は,BEVTrackが200FPSで動作しながら最先端の結果を達成し,リアルタイム適用性を実現していることを示す。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane
Detection [35.797350813519756]
深度情報がないため,単分子式3次元車線検出は難しい課題である。
本稿では,FV表現から直接3次元車線を予測するために,Anchor3DLaneというBEVフリー手法を提案する。
論文 参考訳(メタデータ) (2023-01-06T04:35:31Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - RAANet: Range-Aware Attention Network for LiDAR-based 3D Object
Detection with Auxiliary Density Level Estimation [11.180128679075716]
自律運転のためのLiDARデータから3Dオブジェクトを検出するために,Range-Aware Attention Network (RAANet) が開発された。
RAANetはより強力なBEV機能を抽出し、優れた3Dオブジェクト検出を生成する。
nuScenesデータセットの実験により,提案手法がLiDARを用いた3Dオブジェクト検出の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-11-18T04:20:13Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。