論文の概要: NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar
- arxiv url: http://arxiv.org/abs/2408.17207v1
- Date: Fri, 30 Aug 2024 11:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:38:25.311793
- Title: NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar
- Title(参考訳): NanoMVG: Prompt-Guided Camera と 4D mmWave Radar を用いたUSV中心低消費電力マルチタスク視覚グラウンド
- Authors: Runwei Guan, Jianan Liu, Liye Jia, Haocheng Zhao, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Eng Gee Lim, Jeremy Smith, Yutao Yue,
- Abstract要約: NanoMVGは、水路を具現化した知覚のための低消費電力マルチタスクモデルである。
カメラと4Dミリ波レーダーの両方を誘導し、自然言語で特定の物体を見つける。
- 参考スコア(独自算出の注目度): 7.8129510753821325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, visual grounding and multi-sensors setting have been incorporated into perception system for terrestrial autonomous driving systems and Unmanned Surface Vehicles (USVs), yet the high complexity of modern learning-based visual grounding model using multi-sensors prevents such model to be deployed on USVs in the real-life. To this end, we design a low-power multi-task model named NanoMVG for waterway embodied perception, guiding both camera and 4D millimeter-wave radar to locate specific object(s) through natural language. NanoMVG can perform both box-level and mask-level visual grounding tasks simultaneously. Compared to other visual grounding models, NanoMVG achieves highly competitive performance on the WaterVG dataset, particularly in harsh environments and boasts ultra-low power consumption for long endurance.
- Abstract(参考訳): 近年、地上の自律走行システムや無人表面車両(USV)の認識システムに視覚接地とマルチセンサー設定が組み込まれているが、現代の学習ベース視覚接地モデルの複雑化により、実生活においてUSVにそのようなモデルが展開されるのを防いでいる。
この目的のために,NanoMVGという低消費電力マルチタスクモデルの設計を行った。
NanoMVGは、ボックスレベルとマスクレベルの両方の視覚的グラウンドを同時に実行することができる。
他のビジュアルグラウンドモデルと比較して、NanoMVGは、特に厳しい環境では、ウォーターVGデータセット上で非常に競争力のある性能を達成し、長期間にわたって超低消費電力の電力消費を誇っている。
関連論文リスト
- UniBEVFusion: Unified Radar-Vision BEVFusion for 3D Object Detection [2.123197540438989]
多くのレーダービジョン融合モデルではレーダーを希薄なLiDARとして扱い、レーダー固有の情報を過小評価している。
本稿では,レーダー固有データを深度予測プロセスに統合したRDLモジュールを提案する。
また、異なるモードでBEV機能を抽出するUnified Feature Fusion (UFF)アプローチも導入する。
論文 参考訳(メタデータ) (2024-09-23T06:57:27Z) - Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [38.04404612393027]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。
本研究では,パノラマ的トラバーサビリティ認識とパノラマ的セマンティック理解を備えた単分子ロボットを実現するためのシミュレート・トゥ・リアル・トランスファー手法を提案する。
我々のVLNシステムはシミュレーション環境でR2R-CEとRxR-CEのベンチマークにおいて従来のSOTA単分子VLN法よりも優れており、実環境においても検証されている。
論文 参考訳(メタデータ) (2024-06-14T07:50:09Z) - Vision Transformers for End-to-End Vision-Based Quadrotor Obstacle Avoidance [13.467819526775472]
高速な視覚に基づく四極子障害物回避のための注意に基づくエンドツーエンドアプローチの能力を実証する。
我々は、高忠実度シミュレーションにおいて、深度画像制御のための視覚変換器(ViT)モデルに対して畳み込み、U-Netおよび繰り返しアーキテクチャを訓練し、比較する。
論文 参考訳(メタデータ) (2024-05-16T18:36:43Z) - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar [14.984396484574509]
人間の指示に基づいて,米国における水路認識のために設計された最初の視覚的接地データセットであるWaterVGを紹介する。
WaterVGには、34,987の目標を持つ11,568のサンプルが含まれており、視覚特性とレーダー特性を統合している。
本稿では,多タスクモデルである低消費電力視覚接地モデル Potamoi を提案する。
論文 参考訳(メタデータ) (2024-03-19T12:45:18Z) - ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar [7.2865477881451755]
非対称フェアフュージョン(AFF)モジュールは、視覚とレーダーの両方から独立した特徴と効率的に相互作用するように設計されている。
ASY-VRNetモデルは不規則な超画素点集合に基づいて画像とレーダの特徴を処理する。
他の軽量モデルと比較して、ASY-VRNetはオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-20T14:53:27Z) - DADFNet: Dual Attention and Dual Frequency-Guided Dehazing Network for
Video-Empowered Intelligent Transportation [79.18450119567315]
逆の気象条件は、ビデオベースの交通監視に深刻な課題をもたらす。
本稿では,リアルタイム視認性向上のための2つの注意と2つの周波数誘導型脱ハージングネットワーク(DADFNet)を提案する。
論文 参考訳(メタデータ) (2023-04-19T11:55:30Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale
Outdoor Environments [49.82314641876602]
VPAIRという新しいデータセットを提示します。
データセットは地上300メートル以上の高度で飛行する軽航空機に記録されている。
このデータセットは、様々なタイプの挑戦的な風景を、100km以上にわたってカバーしている。
論文 参考訳(メタデータ) (2022-05-23T18:50:08Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。