Fugu-MT 論文翻訳(概要): ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar

論文の概要: ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar

arxiv url: http://arxiv.org/abs/2308.10287v2
Date: Fri, 5 Jul 2024 01:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 01:01:54.528572
Title: ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar
Title（参考訳）: ASY-VRNet:非対称フェアビジョン融合と4Dmm波レーダに基づく水路パノプティクス駆動知覚モデル
Authors: Runwei Guan, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Yong Yue, Jeremy Smith, Eng Gee Lim, Yutao Yue,
Abstract要約: 非対称フェアフュージョン(AFF)モジュールは、視覚とレーダーの両方から独立した特徴と効率的に相互作用するように設計されている。 ASY-VRNetモデルは不規則な超画素点集合に基づいて画像とレーダの特徴を処理する。他の軽量モデルと比較して、ASY-VRNetはオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 7.2865477881451755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoptic Driving Perception (PDP) is critical for the autonomous navigation of Unmanned Surface Vehicles (USVs). A PDP model typically integrates multiple tasks, necessitating the simultaneous and robust execution of various perception tasks to facilitate downstream path planning. The fusion of visual and radar sensors is currently acknowledged as a robust and cost-effective approach. However, most existing research has primarily focused on fusing visual and radar features dedicated to object detection or utilizing a shared feature space for multiple tasks, neglecting the individual representation differences between various tasks. To address this gap, we propose a pair of Asymmetric Fair Fusion (AFF) modules with favorable explainability designed to efficiently interact with independent features from both visual and radar modalities, tailored to the specific requirements of object detection and semantic segmentation tasks. The AFF modules treat image and radar maps as irregular point sets and transform these features into a crossed-shared feature space for multitasking, ensuring equitable treatment of vision and radar point cloud features. Leveraging AFF modules, we propose a novel and efficient PDP model, ASY-VRNet, which processes image and radar features based on irregular super-pixel point sets. Additionally, we propose an effective multitask learning method specifically designed for PDP models. Compared to other lightweight models, ASY-VRNet achieves state-of-the-art performance in object detection, semantic segmentation, and drivable-area segmentation on the WaterScenes benchmark. Our project is publicly available at https://github.com/GuanRunwei/ASY-VRNet.
Abstract（参考訳）: パノプティカル・ドライビング・パーセプション (PDP) は無人表面車両 (USV) の自律走行に重要である。 PDPモデルは典型的には複数のタスクを統合し、下流の経路計画を容易にするために、様々な知覚タスクの同時実行と堅牢実行を必要とする。視覚センサーとレーダーセンサーの融合は、現在、堅牢で費用対効果の高いアプローチとして認められている。しかし、既存のほとんどの研究は、主にオブジェクト検出専用の視覚的特徴とレーダ的特徴の融合や、複数のタスクに共通する特徴空間の利用に焦点を当てており、様々なタスク間の個々の表現の違いを無視している。このギャップに対処するために,物体検出と意味的セグメンテーションタスクの特定の要件に合わせて,視覚とレーダーの両モードから独立な特徴と効率的に相互作用するように設計された,一対の非対称フェアフュージョン (AFF) モジュールを提案する。 AFFモジュールは画像とレーダーマップを不規則な点集合として扱い、これらの特徴をマルチタスクのためのクロスシェアされた特徴空間に変換し、視覚とレーダーポイントの雲の特徴を公平に扱う。 AFFモジュールを活用することで、不規則な超画素点集合に基づいて画像とレーダの特徴を処理する新しい効率的なPDPモデルASY-VRNetを提案する。さらに,PDPモデルに特化して設計された効果的なマルチタスク学習手法を提案する。他の軽量モデルと比較して、ASY-VRNetはWaterScenesベンチマークのオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。私たちのプロジェクトはhttps://github.com/GuanRunwei/ASY-VRNetで公開されています。

関連論文リスト

RCDINO: Enhancing Radar-Camera 3D Object Detection with DINOv2 Semantic Features [0.0]
3次元物体検出は、自律走行とロボット工学にとって不可欠である。この研究は、視覚バックボーン機能を強化するマルチモーダルトランスフォーマーベースのモデルであるRCDINOを提案する。 nuScenesデータセットの実験では、RCDINOがレーダーカメラモデル間で最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-08-21T08:33:36Z)
DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文参考訳（メタデータ） (2025-06-09T02:49:10Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。コードとモデルは公開されます。
論文参考訳（メタデータ） (2025-01-26T04:24:07Z)
STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文参考訳（メタデータ） (2024-09-17T14:34:18Z)
RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。 RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文参考訳（メタデータ） (2024-09-08T05:14:27Z)
RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks [11.681342476516267]
汎用情報マッピングとインタラクションに基づく分散センシング基礎モデル(RS-DFM)を提案する。このモデルは、複数のプラットフォームにわたるオンライン協調認識と、さまざまな下流タスクを実現することができる。本稿では、高周波・低周波特徴情報を分離するデュアルブランチ情報圧縮モジュールを提案する。
論文参考訳（メタデータ） (2024-06-11T07:46:47Z)
A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文参考訳（メタデータ） (2024-04-19T11:24:34Z)
Simultaneous Clutter Detection and Semantic Segmentation of Moving Objects for Automotive Radar Data [12.96486891333286]
レーダセンサは、自動運転車の環境認識システムにおいて重要な部分である。レーダーポイント雲の処理における最初のステップの1つは、しばしば乱れの検出である。もう一つの一般的な目的は、移動道路利用者のセマンティックセグメンテーションである。我々は,RadarScenesデータセットのセマンティックセマンティックセグメンテーションにおいて,我々の設定が極めて効果的であることを示し,既存のネットワークよりも優れていることを示す。
論文参考訳（メタデータ） (2023-11-13T11:29:38Z)
LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文参考訳（メタデータ） (2023-07-17T21:22:17Z)
PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。 2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文参考訳（メタデータ） (2022-10-12T04:11:48Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。 2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文参考訳（メタデータ） (2021-05-31T03:16:38Z)
Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。 Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-22T14:17:40Z)
Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-08-19T13:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。