論文の概要: WS-DETR: Robust Water Surface Object Detection through Vision-Radar Fusion with Detection Transformer
- arxiv url: http://arxiv.org/abs/2504.07441v1
- Date: Thu, 10 Apr 2025 04:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:54.881007
- Title: WS-DETR: Robust Water Surface Object Detection through Vision-Radar Fusion with Detection Transformer
- Title(参考訳): WS-DETR:検出変換器を用いたビジョンレーダ融合によるロバスト水面検出
- Authors: Huilin Yin, Pengyu Wang, Senmao Li, Jun Yan, Daniel Watzenig,
- Abstract要約: 水面オブジェクト検出は、ぼやけたエッジと多様なオブジェクトスケールの課題に直面します。
既存のアプローチは、モデルの堅牢性に悪影響を及ぼす、クロスモーダルな機能競合に悩まされている。
本稿では,SOTA(State-of-the-art)性能を実現する頑健なビジョンレーダ融合モデルWS-DETRを提案する。
- 参考スコア(独自算出の注目度): 4.768265044725289
- License:
- Abstract: Robust object detection for Unmanned Surface Vehicles (USVs) in complex water environments is essential for reliable navigation and operation. Specifically, water surface object detection faces challenges from blurred edges and diverse object scales. Although vision-radar fusion offers a feasible solution, existing approaches suffer from cross-modal feature conflicts, which negatively affect model robustness. To address this problem, we propose a robust vision-radar fusion model WS-DETR. In particular, we first introduce a Multi-Scale Edge Information Integration (MSEII) module to enhance edge perception and a Hierarchical Feature Aggregator (HiFA) to boost multi-scale object detection in the encoder. Then, we adopt self-moving point representations for continuous convolution and residual connection to efficiently extract irregular features under the scenarios of irregular point cloud data. To further mitigate cross-modal conflicts, an Adaptive Feature Interactive Fusion (AFIF) module is introduced to integrate visual and radar features through geometric alignment and semantic fusion. Extensive experiments on the WaterScenes dataset demonstrate that WS-DETR achieves state-of-the-art (SOTA) performance, maintaining its superiority even under adverse weather and lighting conditions.
- Abstract(参考訳): 複雑な水環境下での無人表面車両(USV)のロバスト物体検出は、信頼性の高いナビゲーションと操作に不可欠である。
特に、水面オブジェクト検出は、ぼやけたエッジと多様なオブジェクトスケールの課題に直面します。
視覚レーダー融合は実現可能な解決策を提供するが、既存のアプローチは、モデルの堅牢性に悪影響を及ぼすクロスモーダルな特徴競合に悩まされている。
この問題に対処するため、我々はロバストなビジョンレーダ融合モデルWS-DETRを提案する。
特に,まず,エッジ認識を強化するマルチスケールエッジ情報統合 (MSEII) モジュールと階層的特徴集約器 (HiFA) を導入し,エンコーダのマルチスケールオブジェクト検出を強化した。
そして,連続的畳み込みと残差接続に自己移動点表現を導入し,不規則点雲データのシナリオ下で不規則な特徴を効率的に抽出する。
アダプティブ・フィーチャー・インタラクティブ・フュージョン(AFIF)モジュールを導入し、幾何学的アライメントとセマンティック・フュージョンを通じて視覚的特徴とレーダー的特徴を統合する。
WaterScenesデータセットの大規模な実験により、WS-DETRは、悪天候や照明条件下であっても、その優位性を保ちながら、最先端(SOTA)の性能を達成することが示された。
関連論文リスト
- Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment [59.61554561979589]
エッジコンピューティングは、時間に敏感なシナリオでディープラーニングベースのオブジェクト検出をデプロイするための重要なパラダイムとして登場した。
既存のエッジ検出手法では、軽量モデルによる検出精度のバランスの難しさ、適応性の制限、現実の検証の不十分といった課題に直面している。
本稿では,汎用的なプラグイン・アンド・プレイコンポーネントを用いてエッジ環境にオブジェクト検出モデルを適用するエッジ検出ツールボックス(ED-TOOLBOX)を提案する。
論文 参考訳(メタデータ) (2024-12-24T07:28:10Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - DARTH: Holistic Test-time Adaptation for Multiple Object Tracking [87.72019733473562]
複数物体追跡(MOT)は、自律運転における知覚システムの基本的構成要素である。
運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題に対する解決策は提案されていない。
我々はMOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。
論文 参考訳(メタデータ) (2023-10-03T10:10:42Z) - AMSP-UOD: When Vortex Convolution and Stochastic Perturbation Meet
Underwater Object Detection [40.532331552038485]
AMSP-UOD(Amplitude-Modulated Perturbation and Vortex Convolutional Network)を提案する。
AMSP-UODは複雑な水中環境における非理想的撮像因子が検出精度に与える影響に対処する。
提案手法は,既存の最先端手法よりも精度とノイズ免疫の点で優れる。
論文 参考訳(メタデータ) (2023-08-23T05:03:45Z) - ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar [7.2865477881451755]
非対称フェアフュージョン(AFF)モジュールは、視覚とレーダーの両方から独立した特徴と効率的に相互作用するように設計されている。
ASY-VRNetモデルは不規則な超画素点集合に基づいて画像とレーダの特徴を処理する。
他の軽量モデルと比較して、ASY-VRNetはオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-20T14:53:27Z) - Vision-Based Autonomous Navigation for Unmanned Surface Vessel in
Extreme Marine Conditions [2.8983738640808645]
本稿では,極端海洋環境下での目標物追跡のための自律的視覚に基づくナビゲーション・フレームワークを提案する。
提案手法は砂嵐や霧による可視性低下下でのシミュレーションで徹底的に検証されている。
結果は、ベンチマークしたMBZIRCシミュレーションデータセット全体にわたる最先端のデハージング手法と比較される。
論文 参考訳(メタデータ) (2023-08-08T14:25:13Z) - Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection [6.388430091498446]
レーダとカメラデータの整合性を向上する2つの新しいレーダ前処理手法を提案する。
また,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。
我々のアプローチは、nuScenesデータセットにおける現在の最先端のレーダーカメラフュージョンベースのオブジェクト検出器よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T09:26:13Z) - AVOIDDS: Aircraft Vision-based Intruder Detection Dataset and Simulator [37.579437595742995]
AVOIDDSは、視覚に基づく航空機の検知・回避問題に対する現実的な物体検出ベンチマークである。
各種照明条件を有する侵入機の光実写画像72,000枚からなるラベル付きデータセットを提供する。
また、このデータセットのスライス上でトレーニングされたモデルを評価し、環境条件の変化に対する性能の変化を特定するインタフェースも提供する。
論文 参考訳(メタデータ) (2023-06-19T23:58:07Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。