Fugu-MT 論文翻訳(概要): WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

論文の概要: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

arxiv url: http://arxiv.org/abs/2403.12686v1
Date: Tue, 19 Mar 2024 12:45:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 14:23:34.322925
Title: WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
Title（参考訳）: WaterVG:テキスト誘導ビジョンとmmWaveレーダに基づく水路視覚接地
Authors: Runwei Guan, Liye Jia, Fengyufan Yang, Shanliang Yao, Erick Purwanto, Xiaohui Zhu, Eng Gee Lim, Jeremy Smith, Ka Lok Man, Yutao Yue,
Abstract要約: WaterVGは、人間の意図に基づくUSVベースの水路知覚のために設計された最初の視覚的接地データセットである。 WaterVGには11,568のサンプルと34,950の参照対象が含まれている。ポタモイ (Potamoi) は、フェーズド・ヘテロジニアス・モダリティ・フュージョン (PHMF) 構造を設計した一段階パラダイムに基づくマルチモーダルビジュアルグラウンドモデルである。
参考スコア（独自算出の注目度）: 6.060023236335236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The perception of waterways based on human intent holds significant importance for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by visual grounding, in this paper, we introduce WaterVG, the first visual grounding dataset designed for USV-based waterway perception based on human intention prompts. WaterVG encompasses prompts describing multiple targets, with annotations at the instance level including bounding boxes and masks. Notably, WaterVG includes 11,568 samples with 34,950 referred targets, which integrates both visual and radar characteristics captured by monocular camera and millimeter-wave (mmWave) radar, enabling a finer granularity of text prompts. Furthermore, we propose a novel multi-modal visual grounding model, Potamoi, which is a multi-modal and multi-task model based on the one-stage paradigm with a designed Phased Heterogeneous Modality Fusion (PHMF) structure, including Adaptive Radar Weighting (ARW) and Multi-Head Slim Cross Attention (MHSCA). In specific, MHSCA is a low-cost and efficient fusion module with a remarkably small parameter count and FLOPs, elegantly aligning and fusing scenario context information captured by two sensors with linguistic features, which can effectively address tasks of referring expression comprehension and segmentation based on fine-grained prompts. Comprehensive experiments and evaluations have been conducted on WaterVG, where our Potamoi archives state-of-the-art performances compared with counterparts.
Abstract（参考訳）: ヒトの意図に基づく水路の認識は、水環境における無人表面車両(USV)の自律航法と運用において重要な意味を持つ。視覚的グラウンドティングにインスパイアされたこの論文では、人間の意図に基づくUSVベースの水路認識のために設計された最初の視覚的グラウンドニングデータセットであるWaterVGを紹介する。 WaterVGには、複数のターゲットを記述するプロンプトが含まれており、バウンディングボックスやマスクを含むインスタンスレベルのアノテーションがある。特に、WaterVGには、34,950個の参照対象を持つ11,568個のサンプルが含まれており、モノクロカメラとミリ波(mmWave)レーダーによって捉えられた視覚的特徴とレーダー特性の両方を統合し、テキストプロンプトのよりきめ細かい粒度を実現している。さらに, 適応レーダ重み付け (ARW) やマルチヘッドスリムクロスアテンション (MHSCA) を含む, 位相不均一モダリティ融合 (PHMF) 構造を設計した一段階パラダイムに基づくマルチモーダル・マルチタスクモデルであるpotamoiを提案する。具体的には、MHSCAは、非常に少ないパラメータ数とFLOPを持つ低コストで効率的な融合モジュールであり、2つのセンサが捉えたシナリオコンテキスト情報を言語的特徴でエレガントに整列し、融合させ、きめ細かいプロンプトに基づく表現理解とセグメンテーションのタスクを効果的に解決することができる。 WaterVGの総合的な実験と評価が行われており、Patamoiは最先端のパフォーマンスを比較検討している。

関連論文リスト

RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence [10.115852646162843]
本稿では、ミリ波レーダをセンシングモードとして用いた人間の理解に大規模言語モデル(LLM)を利用する最初のフレームワークであるRadar-LLMを提案する。データ不足に対処するために、モーションテキストデータセットからリアルなレーダテキストペアを生成する物理対応パイプライン合成を導入する。 Radar-LLMは、合成および実世界のベンチマークの両方で最先端のパフォーマンスを実現し、ミリ波信号の自然言語記述への正確な変換を可能にする。
論文参考訳（メタデータ） (2025-04-14T04:18:25Z)
Inland Waterway Object Detection in Multi-environment: Dataset and Approach [12.00732943849236]
本稿では,多環境インランド・ウォーターウェイ・ベッセル・データセット(MEIWVD)を紹介する。 MEIWVDは、晴れ、雨、霧、人工照明など様々なシナリオから32,478枚の高品質な画像で構成されている。本稿では,環境条件に応じた水面画像改善のためのシーン誘導画像強調モジュールを提案する。
論文参考訳（メタデータ） (2025-04-07T08:45:00Z)
Towards an Autonomous Surface Vehicle Prototype for Artificial Intelligence Applications of Water Quality Monitoring [68.41400824104953]
本稿では,人工知能アルゴリズムの利用と水質モニタリングのための高感度センシング技術に対処する車両プロトタイプを提案する。車両には水質パラメータと水深を測定するための高品質なセンサーが装備されている。ステレオカメラにより、実際の環境でのマクロプラスチックの検出と検出も可能である。
論文参考訳（メタデータ） (2024-10-08T10:35:32Z)
NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar [7.8129510753821325]
NanoMVGは、水路を具現化した知覚のための低消費電力マルチタスクモデルである。カメラと4Dミリ波レーダーの両方を誘導し、自然言語で特定の物体を見つける。
論文参考訳（メタデータ） (2024-08-30T11:22:09Z)
Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文参考訳（メタデータ） (2024-08-03T22:55:26Z)
Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension [21.598751853520834]
4Dミリ波レーダは従来のレーダよりも密度の高い点雲を提供し、オブジェクトの意味的および物理的特性の両方を知覚する。 3次元視覚接地のためのレーダシーンにおける自然言語による文脈理解の開発を促進するため,最初のデータセットTalk2Radarを構築した。本研究では,ポイントクラウド上での3次元参照表現のための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのステートオフ・ザ・アート(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-05-21T14:26:36Z)
Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文参考訳（メタデータ） (2024-05-07T20:44:48Z)
ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar [7.2865477881451755]
非対称フェアフュージョン(AFF)モジュールは、視覚とレーダーの両方から独立した特徴と効率的に相互作用するように設計されている。 ASY-VRNetモデルは不規則な超画素点集合に基づいて画像とレーダの特徴を処理する。他の軽量モデルと比較して、ASY-VRNetはオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-20T14:53:27Z)
Vision-Based Autonomous Navigation for Unmanned Surface Vessel in Extreme Marine Conditions [2.8983738640808645]
本稿では,極端海洋環境下での目標物追跡のための自律的視覚に基づくナビゲーション・フレームワークを提案する。提案手法は砂嵐や霧による可視性低下下でのシミュレーションで徹底的に検証されている。結果は、ベンチマークしたMBZIRCシミュレーションデータセット全体にわたる最先端のデハージング手法と比較される。
論文参考訳（メタデータ） (2023-08-08T14:25:13Z)
Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文参考訳（メタデータ） (2022-05-27T05:42:16Z)
VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale Outdoor Environments [49.82314641876602]
VPAIRという新しいデータセットを提示します。データセットは地上300メートル以上の高度で飛行する軽航空機に記録されている。このデータセットは、様々なタイプの挑戦的な風景を、100km以上にわたってカバーしている。
論文参考訳（メタデータ） (2022-05-23T18:50:08Z)
Safe Vessel Navigation Visually Aided by Autonomous Unmanned Aerial Vehicles in Congested Harbors and Waterways [9.270928705464193]
この研究は、従来のRGBカメラと補助的な絶対位置決めシステム(GPSなど)で捉えた長距離視覚データから未知の物体までの距離を検知し推定する最初の試みである。シミュレーション結果は,UAV支援艦艇の視覚支援航法における提案手法の精度と有効性を示すものである。
論文参考訳（メタデータ） (2021-08-09T08:15:17Z)
Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。 UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-09-16T11:37:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。