論文の概要: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
- arxiv url: http://arxiv.org/abs/2403.12686v2
- Date: Mon, 1 Apr 2024 01:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:44:58.850393
- Title: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
- Title(参考訳): WaterVG:テキスト誘導ビジョンとmmWaveレーダに基づく水路視覚接地
- Authors: Runwei Guan, Liye Jia, Fengyufan Yang, Shanliang Yao, Erick Purwanto, Xiaohui Zhu, Eng Gee Lim, Jeremy Smith, Ka Lok Man, Xuming Hu, Yutao Yue,
- Abstract要約: 人間の指示に基づいて,米国における水路認識のために設計された最初の視覚的接地データセットであるWaterVGを紹介する。
WaterVGには、34,987の目標を持つ11,568のサンプルが含まれており、視覚特性とレーダー特性を統合している。
本稿では,多タスクモデルである低消費電力視覚接地モデル Potamoi を提案する。
- 参考スコア(独自算出の注目度): 14.984396484574509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The perception of waterways based on human intent is significant for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by visual grounding, we introduce WaterVG, the first visual grounding dataset designed for USV-based waterway perception based on human prompts. WaterVG encompasses prompts describing multiple targets, with annotations at the instance level including bounding boxes and masks. Notably, WaterVG includes 11,568 samples with 34,987 referred targets, whose prompts integrates both visual and radar characteristics. The pattern of text-guided two sensors equips a finer granularity of text prompts with visual and radar features of referred targets. Moreover, we propose a low-power visual grounding model, Potamoi, which is a multi-task model with a well-designed Phased Heterogeneous Modality Fusion (PHMF) mode, including Adaptive Radar Weighting (ARW) and Multi-Head Slim Cross Attention (MHSCA). Exactly, ARW extracts required radar features to fuse with vision for prompt alignment. MHSCA is an efficient fusion module with a remarkably small parameter count and FLOPs, elegantly fusing scenario context captured by two sensors with linguistic features, which performs expressively on visual grounding tasks. Comprehensive experiments and evaluations have been conducted on WaterVG, where our Potamoi archives state-of-the-art performances compared with counterparts.
- Abstract(参考訳): ヒトの意図に基づく水路の認識は、水環境における無人表面車両(USV)の自律航法と運用において重要である。
視覚的グラウンドティングにインスパイアされ、人間のプロンプトに基づいてUSVベースの水路知覚のために設計された最初の視覚的グラウンドニングデータセットであるWaterVGを紹介した。
WaterVGには、複数のターゲットを記述するプロンプトが含まれており、バウンディングボックスやマスクを含むインスタンスレベルのアノテーションがある。
特に、WaterVGは34,987個の目標を持つ11,568個のサンプルを含んでおり、そのプロンプトは視覚とレーダーの両方の特徴を統合している。
テキスト誘導された2つのセンサーのパターンは、テキストプロンプトの細かい粒度と参照対象の視覚的特徴とレーダー的特徴とを装備する。
さらに, 適応レーダ重み付け (ARW) やマルチヘッドスリムクロスアテンション (MHSCA) を含む, 位相不均一モード (PHMF) モードをよく設計したマルチタスクモデルであるpotamoiを提案する。
正確には、ARWの抽出はレーダーの特徴を瞬時アライメントのために視覚と融合させる必要があった。
MHSCAは、非常に小さなパラメータ数とFLOPを持つ効率的な融合モジュールであり、視覚的グラウンドタスクで表現可能な2つの特徴を持つ2つのセンサーによって捕捉されたシナリオコンテキストをエレガントに融合する。
WaterVGの総合的な実験と評価が行われており、Patamoiは最先端のパフォーマンスを比較検討している。
関連論文リスト
- Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied
Scenarios [66.05091704671503]
本稿では、ポイントツーポイントナビゲーションタスクにおける飛行偏差に対処する新しい角度ナビゲーションパラダイムを提案する。
また、Adaptive Feature Enhance Module、Cross-knowledge Attention-guided Module、Robust Task-oriented Head Moduleを含むモデルを提案する。
論文 参考訳(メタデータ) (2024-02-04T08:41:20Z) - Radar-Lidar Fusion for Object Detection by Designing Effective
Convolution Networks [18.17057711053028]
オブジェクト検出の強化のために,レーダデータとライダーデータを統合したデュアルブランチフレームワークを提案する。
この結果は、最先端の手法を1.89%ドルと2.61%ドルで上回り、好ましくない気象条件で上回っていることを示している。
論文 参考訳(メタデータ) (2023-10-30T10:18:40Z) - Vision-Based Autonomous Navigation for Unmanned Surface Vessel in
Extreme Marine Conditions [2.8983738640808645]
本稿では,極端海洋環境下での目標物追跡のための自律的視覚に基づくナビゲーション・フレームワークを提案する。
提案手法は砂嵐や霧による可視性低下下でのシミュレーションで徹底的に検証されている。
結果は、ベンチマークしたMBZIRCシミュレーションデータセット全体にわたる最先端のデハージング手法と比較される。
論文 参考訳(メタデータ) (2023-08-08T14:25:13Z) - WaterScenes: A Multi-Task 4D Radar-Camera Fusion Dataset and Benchmark
for Autonomous Driving on Water Surfaces [9.708508386689177]
WaterScenesは、水面での自律走行のための最初のマルチタスク4Dレーダーカメラ融合データセットである。
我々の無人表面車両(USV)は、オブジェクト関連の情報を識別するための全天候のソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-13T01:05:12Z) - ODAM: Gradient-based instance-specific visual explanations for object
detection [51.476702316759635]
勾配重み付き物体検出器活性化マップ(ODAM)
ODAMは、各予測属性に対する検出器の決定に対する領域の影響を示す熱マップを生成する。
そこで本研究では,重複検出対象を識別するために,各予測に対してモデルの説明情報を考慮したOdam-NMSを提案する。
論文 参考訳(メタデータ) (2023-04-13T09:20:26Z) - UAVs Beneath the Surface: Cooperative Autonomy for Subterranean Search
and Rescue in DARPA SubT [5.145696432159643]
本稿では, 複雑なトポロジを持つ地下ドメインの探索・救助作業において, 自律的協調型UAVの新たなアプローチを提案する。
提案されたシステムは、DARPA SubTファイナルのVirtual TrackでCTU-CRAS-NORLABチームの一員として第2位にランクされた。
提案手法はまた、現実世界の競争の極端に厳しく制限された環境で飛行する物理的UAVに展開するための堅牢なシステムであることを証明した。
論文 参考訳(メタデータ) (2022-06-16T13:54:33Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale
Outdoor Environments [49.82314641876602]
VPAIRという新しいデータセットを提示します。
データセットは地上300メートル以上の高度で飛行する軽航空機に記録されている。
このデータセットは、様々なタイプの挑戦的な風景を、100km以上にわたってカバーしている。
論文 参考訳(メタデータ) (2022-05-23T18:50:08Z) - Safe Vessel Navigation Visually Aided by Autonomous Unmanned Aerial
Vehicles in Congested Harbors and Waterways [9.270928705464193]
この研究は、従来のRGBカメラと補助的な絶対位置決めシステム(GPSなど)で捉えた長距離視覚データから未知の物体までの距離を検知し推定する最初の試みである。
シミュレーション結果は,UAV支援艦艇の視覚支援航法における提案手法の精度と有効性を示すものである。
論文 参考訳(メタデータ) (2021-08-09T08:15:17Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。