論文の概要: Achelous: A Fast Unified Water-surface Panoptic Perception Framework
based on Fusion of Monocular Camera and 4D mmWave Radar
- arxiv url: http://arxiv.org/abs/2307.07102v1
- Date: Fri, 14 Jul 2023 00:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:10:55.270287
- Title: Achelous: A Fast Unified Water-surface Panoptic Perception Framework
based on Fusion of Monocular Camera and 4D mmWave Radar
- Title(参考訳): Achelous:モノクラーカメラと4Dmm波レーダを融合した高速統一水面パノプティカル知覚フレームワーク
- Authors: Runwei Guan, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Eng Gee Lim,
Jeremy Smith, Yong Yue, Yutao Yue
- Abstract要約: 現在のマルチタスク認識モデルは、パラメータが巨大で、推論が遅く、拡張性がない。
本研究では,モノクロカメラと4D mmWaveレーダの融合に基づく水面認識のための低コストで高速な一眼レフ知覚フレームワークであるAchelousを提案する。
アシェルスは同時に、視覚的目標の検出とセグメンテーション、乾燥可能な領域セグメンテーション、ウォーターラインセグメンテーション、レーダーポイントクラウドセグメンテーションの5つのタスクを実行することができる。
- 参考スコア(独自算出の注目度): 7.225125838672763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current perception models for different tasks usually exist in modular forms
on Unmanned Surface Vehicles (USVs), which infer extremely slowly in parallel
on edge devices, causing the asynchrony between perception results and USV
position, and leading to error decisions of autonomous navigation. Compared
with Unmanned Ground Vehicles (UGVs), the robust perception of USVs develops
relatively slowly. Moreover, most current multi-task perception models are huge
in parameters, slow in inference and not scalable. Oriented on this, we propose
Achelous, a low-cost and fast unified panoptic perception framework for
water-surface perception based on the fusion of a monocular camera and 4D
mmWave radar. Achelous can simultaneously perform five tasks, detection and
segmentation of visual targets, drivable-area segmentation, waterline
segmentation and radar point cloud segmentation. Besides, models in Achelous
family, with less than around 5 million parameters, achieve about 18 FPS on an
NVIDIA Jetson AGX Xavier, 11 FPS faster than HybridNets, and exceed YOLOX-Tiny
and Segformer-B0 on our collected dataset about 5 mAP$_{\text{50-95}}$ and 0.7
mIoU, especially under situations of adverse weather, dark environments and
camera failure. To our knowledge, Achelous is the first comprehensive panoptic
perception framework combining vision-level and point-cloud-level tasks for
water-surface perception. To promote the development of the intelligent
transportation community, we release our codes in
\url{https://github.com/GuanRunwei/Achelous}.
- Abstract(参考訳): 異なるタスクに対する現在の知覚モデルは、通常、無人表面車両(USV)のモジュラー形式に存在するが、これはエッジデバイス上で非常にゆっくりと平行に推論し、知覚結果とUSV位置の同期を引き起こし、自律的なナビゲーションの誤判定を引き起こす。
無人地上車両(UGV)と比較すると、USVの強い認識は比較的ゆっくりと発達する。
さらに、現在のマルチタスク知覚モデルのほとんどはパラメータが大きく、推論が遅く、スケーラブルではない。
そこで本研究では,単眼カメラと4次元mm波レーダの融合に基づく水面知覚のための低コスト・高速統一型汎視知覚フレームワーク achelous を提案する。
achelousは、視覚ターゲットの検出とセグメンテーション、ドリブル領域セグメンテーション、ウォーターラインセグメンテーション、レーダーポイントクラウドセグメンテーションの5つのタスクを同時に行うことができる。
さらに、Achelousファミリーのモデルは約500万パラメータ未満で、NVIDIA Jetson AGX Xavierで約18FPS、HybridNetsで11FPS、収集したデータセットで約5mAP$_{\text{50-95}}$と0.7mIoUでYOLOX-TinyとSegformer-B0を超えています。
我々の知る限り、Achelousは水面認識のための視覚レベルとポイントクラウドレベルのタスクを組み合わせた初めての総合的な汎視知覚フレームワークである。
インテリジェントな輸送コミュニティの開発を促進するために、私たちはコードを \url{https://github.com/guanrunwei/achelous} でリリースします。
関連論文リスト
- Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - Achelous++: Power-Oriented Water-Surface Panoptic Perception Framework
on Edge Devices based on Vision-Radar Fusion and Pruning of Heterogeneous
Modalities [11.793123307886196]
本稿では,マルチタスク水面汎視知覚モデルの開発と評価を容易にするフレームワークであるAchelous++を提案する。
Achelous++は、オブジェクト検出、オブジェクトセマンティックセグメンテーション、乾燥可能な領域セグメンテーション、ウォーターラインセグメンテーション、レーダーポイントクラウドセマンティックセグメンテーションを含む、高速で低消費電力の5つの知覚タスクを同時に実行することができる。
我々のフレームワークはWaterScenesベンチマークの最先端性能を実現し、他のシングルタスクモデルやマルチタスクモデルと比較して精度と電力効率に優れています。
論文 参考訳(メタデータ) (2023-12-14T12:10:12Z) - ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar [7.2865477881451755]
非対称フェアフュージョン(AFF)モジュールは、視覚とレーダーの両方から独立した特徴と効率的に相互作用するように設計されている。
ASY-VRNetモデルは不規則な超画素点集合に基づいて画像とレーダの特徴を処理する。
他の軽量モデルと比較して、ASY-VRNetはオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-20T14:53:27Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - WaterScenes: A Multi-Task 4D Radar-Camera Fusion Dataset and Benchmarks for Autonomous Driving on Water Surfaces [12.755813310009179]
WaterScenesは、水面での自律走行のための最初のマルチタスク4Dレーダーカメラ融合データセットである。
我々の無人表面車両(USV)は、オブジェクト関連の情報を識別するための全天候のソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-13T01:05:12Z) - Semantic Segmentation of Radar Detections using Convolutions on Point
Clouds [59.45414406974091]
本稿では,レーダ検出を点雲に展開する深層学習手法を提案する。
このアルゴリズムは、距離依存クラスタリングと入力点雲の事前処理により、レーダ固有の特性に適応する。
我々のネットワークは、レーダポイント雲のセマンティックセグメンテーションのタスクにおいて、PointNet++に基づく最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-05-22T07:09:35Z) - EV-Catcher: High-Speed Object Catching Using Low-latency Event-based
Neural Networks [107.62975594230687]
イベントカメラが優れており、高速移動物体の衝突位置を正確に推定するアプリケーションを実証する。
イベントデータを低レイテンシでエンコードするために,Binary Event History Image(BEHI)と呼ばれる軽量なイベント表現を導入する。
計算制約のある組込みプラットフォーム上でも最大13m/sの速さで, 異なる場所をターゲットとした球のキャッチにおいて, 81%の成功率を達成することができることを示す。
論文 参考訳(メタデータ) (2023-04-14T15:23:28Z) - Gaussian Radar Transformer for Semantic Segmentation in Noisy Radar Data [33.457104508061015]
シーン理解は、将来の状態予測、衝突回避、経路計画を行うために、動的環境における自律ロボットにとって不可欠である。
カメラとLiDARの認識は近年大きく進歩したが、悪天候下では限界に直面した。
マルチモーダルセンサースイートの可能性を最大限に活用するためには、レーダーセンサーは安全上の重要なタスクに不可欠であり、現在ほとんどの新しい車両に導入されている。
論文 参考訳(メタデータ) (2022-12-07T15:05:03Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Cross-modal Learning of Graph Representations using Radar Point Cloud
for Long-Range Gesture Recognition [6.9545038359818445]
長距離(1m~2m)ジェスチャー認識のための新しいアーキテクチャを提案する。
私たちは、カメラポイントクラウドから60GHzのFMCWレーダポイントクラウドまで、ポイントクラウドベースのクロスラーニングアプローチを使用します。
実験結果では,5つのジェスチャーに対して98.4%の総合精度と一般化能力を示す。
論文 参考訳(メタデータ) (2022-03-31T14:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。