論文の概要: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
- arxiv url: http://arxiv.org/abs/2403.12686v1
- Date: Tue, 19 Mar 2024 12:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:23:34.322925
- Title: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
- Title(参考訳): WaterVG:テキスト誘導ビジョンとmmWaveレーダに基づく水路視覚接地
- Authors: Runwei Guan, Liye Jia, Fengyufan Yang, Shanliang Yao, Erick Purwanto, Xiaohui Zhu, Eng Gee Lim, Jeremy Smith, Ka Lok Man, Yutao Yue,
- Abstract要約: WaterVGは、人間の意図に基づくUSVベースの水路知覚のために設計された最初の視覚的接地データセットである。
WaterVGには11,568のサンプルと34,950の参照対象が含まれている。
ポタモイ (Potamoi) は、フェーズド・ヘテロジニアス・モダリティ・フュージョン (PHMF) 構造を設計した一段階パラダイムに基づくマルチモーダルビジュアルグラウンドモデルである。
- 参考スコア(独自算出の注目度): 6.060023236335236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The perception of waterways based on human intent holds significant importance for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by visual grounding, in this paper, we introduce WaterVG, the first visual grounding dataset designed for USV-based waterway perception based on human intention prompts. WaterVG encompasses prompts describing multiple targets, with annotations at the instance level including bounding boxes and masks. Notably, WaterVG includes 11,568 samples with 34,950 referred targets, which integrates both visual and radar characteristics captured by monocular camera and millimeter-wave (mmWave) radar, enabling a finer granularity of text prompts. Furthermore, we propose a novel multi-modal visual grounding model, Potamoi, which is a multi-modal and multi-task model based on the one-stage paradigm with a designed Phased Heterogeneous Modality Fusion (PHMF) structure, including Adaptive Radar Weighting (ARW) and Multi-Head Slim Cross Attention (MHSCA). In specific, MHSCA is a low-cost and efficient fusion module with a remarkably small parameter count and FLOPs, elegantly aligning and fusing scenario context information captured by two sensors with linguistic features, which can effectively address tasks of referring expression comprehension and segmentation based on fine-grained prompts. Comprehensive experiments and evaluations have been conducted on WaterVG, where our Potamoi archives state-of-the-art performances compared with counterparts.
- Abstract(参考訳): ヒトの意図に基づく水路の認識は、水環境における無人表面車両(USV)の自律航法と運用において重要な意味を持つ。
視覚的グラウンドティングにインスパイアされたこの論文では、人間の意図に基づくUSVベースの水路認識のために設計された最初の視覚的グラウンドニングデータセットであるWaterVGを紹介する。
WaterVGには、複数のターゲットを記述するプロンプトが含まれており、バウンディングボックスやマスクを含むインスタンスレベルのアノテーションがある。
特に、WaterVGには、34,950個の参照対象を持つ11,568個のサンプルが含まれており、モノクロカメラとミリ波(mmWave)レーダーによって捉えられた視覚的特徴とレーダー特性の両方を統合し、テキストプロンプトのよりきめ細かい粒度を実現している。
さらに, 適応レーダ重み付け (ARW) やマルチヘッドスリムクロスアテンション (MHSCA) を含む, 位相不均一モダリティ融合 (PHMF) 構造を設計した一段階パラダイムに基づくマルチモーダル・マルチタスクモデルであるpotamoiを提案する。
具体的には、MHSCAは、非常に少ないパラメータ数とFLOPを持つ低コストで効率的な融合モジュールであり、2つのセンサが捉えたシナリオコンテキスト情報を言語的特徴でエレガントに整列し、融合させ、きめ細かいプロンプトに基づく表現理解とセグメンテーションのタスクを効果的に解決することができる。
WaterVGの総合的な実験と評価が行われており、Patamoiは最先端のパフォーマンスを比較検討している。
関連論文リスト
- Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied
Scenarios [66.05091704671503]
本稿では、ポイントツーポイントナビゲーションタスクにおける飛行偏差に対処する新しい角度ナビゲーションパラダイムを提案する。
また、Adaptive Feature Enhance Module、Cross-knowledge Attention-guided Module、Robust Task-oriented Head Moduleを含むモデルを提案する。
論文 参考訳(メタデータ) (2024-02-04T08:41:20Z) - Radar-Lidar Fusion for Object Detection by Designing Effective
Convolution Networks [18.17057711053028]
オブジェクト検出の強化のために,レーダデータとライダーデータを統合したデュアルブランチフレームワークを提案する。
この結果は、最先端の手法を1.89%ドルと2.61%ドルで上回り、好ましくない気象条件で上回っていることを示している。
論文 参考訳(メタデータ) (2023-10-30T10:18:40Z) - Vision-Based Autonomous Navigation for Unmanned Surface Vessel in
Extreme Marine Conditions [2.8983738640808645]
本稿では,極端海洋環境下での目標物追跡のための自律的視覚に基づくナビゲーション・フレームワークを提案する。
提案手法は砂嵐や霧による可視性低下下でのシミュレーションで徹底的に検証されている。
結果は、ベンチマークしたMBZIRCシミュレーションデータセット全体にわたる最先端のデハージング手法と比較される。
論文 参考訳(メタデータ) (2023-08-08T14:25:13Z) - WaterScenes: A Multi-Task 4D Radar-Camera Fusion Dataset and Benchmark
for Autonomous Driving on Water Surfaces [9.708508386689177]
WaterScenesは、水面での自律走行のための最初のマルチタスク4Dレーダーカメラ融合データセットである。
我々の無人表面車両(USV)は、オブジェクト関連の情報を識別するための全天候のソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-13T01:05:12Z) - ODAM: Gradient-based instance-specific visual explanations for object
detection [51.476702316759635]
勾配重み付き物体検出器活性化マップ(ODAM)
ODAMは、各予測属性に対する検出器の決定に対する領域の影響を示す熱マップを生成する。
そこで本研究では,重複検出対象を識別するために,各予測に対してモデルの説明情報を考慮したOdam-NMSを提案する。
論文 参考訳(メタデータ) (2023-04-13T09:20:26Z) - UAVs Beneath the Surface: Cooperative Autonomy for Subterranean Search
and Rescue in DARPA SubT [5.145696432159643]
本稿では, 複雑なトポロジを持つ地下ドメインの探索・救助作業において, 自律的協調型UAVの新たなアプローチを提案する。
提案されたシステムは、DARPA SubTファイナルのVirtual TrackでCTU-CRAS-NORLABチームの一員として第2位にランクされた。
提案手法はまた、現実世界の競争の極端に厳しく制限された環境で飛行する物理的UAVに展開するための堅牢なシステムであることを証明した。
論文 参考訳(メタデータ) (2022-06-16T13:54:33Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale
Outdoor Environments [49.82314641876602]
VPAIRという新しいデータセットを提示します。
データセットは地上300メートル以上の高度で飛行する軽航空機に記録されている。
このデータセットは、様々なタイプの挑戦的な風景を、100km以上にわたってカバーしている。
論文 参考訳(メタデータ) (2022-05-23T18:50:08Z) - Safe Vessel Navigation Visually Aided by Autonomous Unmanned Aerial
Vehicles in Congested Harbors and Waterways [9.270928705464193]
この研究は、従来のRGBカメラと補助的な絶対位置決めシステム(GPSなど)で捉えた長距離視覚データから未知の物体までの距離を検知し推定する最初の試みである。
シミュレーション結果は,UAV支援艦艇の視覚支援航法における提案手法の精度と有効性を示すものである。
論文 参考訳(メタデータ) (2021-08-09T08:15:17Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。