Fugu-MT 論文翻訳(概要): WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

論文の概要: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

arxiv url: http://arxiv.org/abs/2403.12686v2
Date: Mon, 1 Apr 2024 01:23:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 13:44:58.850393
Title: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
Title（参考訳）: WaterVG:テキスト誘導ビジョンとmmWaveレーダに基づく水路視覚接地
Authors: Runwei Guan, Liye Jia, Fengyufan Yang, Shanliang Yao, Erick Purwanto, Xiaohui Zhu, Eng Gee Lim, Jeremy Smith, Ka Lok Man, Xuming Hu, Yutao Yue,
Abstract要約: 人間の指示に基づいて,米国における水路認識のために設計された最初の視覚的接地データセットであるWaterVGを紹介する。 WaterVGには、34,987の目標を持つ11,568のサンプルが含まれており、視覚特性とレーダー特性を統合している。本稿では,多タスクモデルである低消費電力視覚接地モデル Potamoi を提案する。
参考スコア（独自算出の注目度）: 14.984396484574509
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The perception of waterways based on human intent is significant for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by visual grounding, we introduce WaterVG, the first visual grounding dataset designed for USV-based waterway perception based on human prompts. WaterVG encompasses prompts describing multiple targets, with annotations at the instance level including bounding boxes and masks. Notably, WaterVG includes 11,568 samples with 34,987 referred targets, whose prompts integrates both visual and radar characteristics. The pattern of text-guided two sensors equips a finer granularity of text prompts with visual and radar features of referred targets. Moreover, we propose a low-power visual grounding model, Potamoi, which is a multi-task model with a well-designed Phased Heterogeneous Modality Fusion (PHMF) mode, including Adaptive Radar Weighting (ARW) and Multi-Head Slim Cross Attention (MHSCA). Exactly, ARW extracts required radar features to fuse with vision for prompt alignment. MHSCA is an efficient fusion module with a remarkably small parameter count and FLOPs, elegantly fusing scenario context captured by two sensors with linguistic features, which performs expressively on visual grounding tasks. Comprehensive experiments and evaluations have been conducted on WaterVG, where our Potamoi archives state-of-the-art performances compared with counterparts.
Abstract（参考訳）: ヒトの意図に基づく水路の認識は、水環境における無人表面車両(USV)の自律航法と運用において重要である。視覚的グラウンドティングにインスパイアされ、人間のプロンプトに基づいてUSVベースの水路知覚のために設計された最初の視覚的グラウンドニングデータセットであるWaterVGを紹介した。 WaterVGには、複数のターゲットを記述するプロンプトが含まれており、バウンディングボックスやマスクを含むインスタンスレベルのアノテーションがある。特に、WaterVGは34,987個の目標を持つ11,568個のサンプルを含んでおり、そのプロンプトは視覚とレーダーの両方の特徴を統合している。テキスト誘導された2つのセンサーのパターンは、テキストプロンプトの細かい粒度と参照対象の視覚的特徴とレーダー的特徴とを装備する。さらに, 適応レーダ重み付け (ARW) やマルチヘッドスリムクロスアテンション (MHSCA) を含む, 位相不均一モード (PHMF) モードをよく設計したマルチタスクモデルであるpotamoiを提案する。正確には、ARWの抽出はレーダーの特徴を瞬時アライメントのために視覚と融合させる必要があった。 MHSCAは、非常に小さなパラメータ数とFLOPを持つ効率的な融合モジュールであり、視覚的グラウンドタスクで表現可能な2つの特徴を持つ2つのセンサーによって捕捉されたシナリオコンテキストをエレガントに融合する。 WaterVGの総合的な実験と評価が行われており、Patamoiは最先端のパフォーマンスを比較検討している。

関連論文リスト

RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence [10.115852646162843]
本稿では、ミリ波レーダをセンシングモードとして用いた人間の理解に大規模言語モデル(LLM)を利用する最初のフレームワークであるRadar-LLMを提案する。データ不足に対処するために、モーションテキストデータセットからリアルなレーダテキストペアを生成する物理対応パイプライン合成を導入する。 Radar-LLMは、合成および実世界のベンチマークの両方で最先端のパフォーマンスを実現し、ミリ波信号の自然言語記述への正確な変換を可能にする。
論文参考訳（メタデータ） (2025-04-14T04:18:25Z)
Inland Waterway Object Detection in Multi-environment: Dataset and Approach [12.00732943849236]
本稿では,多環境インランド・ウォーターウェイ・ベッセル・データセット(MEIWVD)を紹介する。 MEIWVDは、晴れ、雨、霧、人工照明など様々なシナリオから32,478枚の高品質な画像で構成されている。本稿では,環境条件に応じた水面画像改善のためのシーン誘導画像強調モジュールを提案する。
論文参考訳（メタデータ） (2025-04-07T08:45:00Z)
Towards an Autonomous Surface Vehicle Prototype for Artificial Intelligence Applications of Water Quality Monitoring [68.41400824104953]
本稿では,人工知能アルゴリズムの利用と水質モニタリングのための高感度センシング技術に対処する車両プロトタイプを提案する。車両には水質パラメータと水深を測定するための高品質なセンサーが装備されている。ステレオカメラにより、実際の環境でのマクロプラスチックの検出と検出も可能である。
論文参考訳（メタデータ） (2024-10-08T10:35:32Z)
NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar [7.8129510753821325]
NanoMVGは、水路を具現化した知覚のための低消費電力マルチタスクモデルである。カメラと4Dミリ波レーダーの両方を誘導し、自然言語で特定の物体を見つける。
論文参考訳（メタデータ） (2024-08-30T11:22:09Z)
Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文参考訳（メタデータ） (2024-08-03T22:55:26Z)
Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension [21.598751853520834]
4Dミリ波レーダは従来のレーダよりも密度の高い点雲を提供し、オブジェクトの意味的および物理的特性の両方を知覚する。 3次元視覚接地のためのレーダシーンにおける自然言語による文脈理解の開発を促進するため,最初のデータセットTalk2Radarを構築した。本研究では,ポイントクラウド上での3次元参照表現のための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのステートオフ・ザ・アート(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-05-21T14:26:36Z)
Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文参考訳（メタデータ） (2024-05-07T20:44:48Z)
ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar [7.2865477881451755]
非対称フェアフュージョン(AFF)モジュールは、視覚とレーダーの両方から独立した特徴と効率的に相互作用するように設計されている。 ASY-VRNetモデルは不規則な超画素点集合に基づいて画像とレーダの特徴を処理する。他の軽量モデルと比較して、ASY-VRNetはオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-20T14:53:27Z)
Vision-Based Autonomous Navigation for Unmanned Surface Vessel in Extreme Marine Conditions [2.8983738640808645]
本稿では,極端海洋環境下での目標物追跡のための自律的視覚に基づくナビゲーション・フレームワークを提案する。提案手法は砂嵐や霧による可視性低下下でのシミュレーションで徹底的に検証されている。結果は、ベンチマークしたMBZIRCシミュレーションデータセット全体にわたる最先端のデハージング手法と比較される。
論文参考訳（メタデータ） (2023-08-08T14:25:13Z)
Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文参考訳（メタデータ） (2022-05-27T05:42:16Z)
VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale Outdoor Environments [49.82314641876602]
VPAIRという新しいデータセットを提示します。データセットは地上300メートル以上の高度で飛行する軽航空機に記録されている。このデータセットは、様々なタイプの挑戦的な風景を、100km以上にわたってカバーしている。
論文参考訳（メタデータ） (2022-05-23T18:50:08Z)
Safe Vessel Navigation Visually Aided by Autonomous Unmanned Aerial Vehicles in Congested Harbors and Waterways [9.270928705464193]
この研究は、従来のRGBカメラと補助的な絶対位置決めシステム(GPSなど)で捉えた長距離視覚データから未知の物体までの距離を検知し推定する最初の試みである。シミュレーション結果は,UAV支援艦艇の視覚支援航法における提案手法の精度と有効性を示すものである。
論文参考訳（メタデータ） (2021-08-09T08:15:17Z)
Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。 UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-09-16T11:37:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。