論文の概要: AquaVLM: Improving Underwater Situation Awareness with Mobile Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.21722v1
- Date: Wed, 17 Sep 2025 04:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.113276
- Title: AquaVLM: Improving Underwater Situation Awareness with Mobile Vision Language Models
- Title(参考訳): AquaVLM:モバイルビジョン言語モデルによる水中環境認識の改善
- Authors: Beitong Tian, Lingzhi Zhao, Bo Chen, Haozhen Zheng, Jingcheng Yang, Mingyuan Wu, Deepak Vasisht, Klara Nahrstedt,
- Abstract要約: AquaVLMは、コンテキスト認識メッセージを自動的に生成し、ユビキタススマートフォンで送信する水中通信システムである。
本システムでは,自動生成水中会話データセットを微調整した移動視覚言語モデル(VLM)を特徴とし,階層的なメッセージ生成パイプラインを用いる。
我々は,現実的な水中環境下でAquaVLMを体験できるVRシミュレータを開発し,実世界の実験のためのiOSプラットフォーム上で完全に機能するプロトタイプを作成する。
- 参考スコア(独自算出の注目度): 12.699617958093802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater activities like scuba diving enable millions annually to explore marine environments for recreation and scientific research. Maintaining situational awareness and effective communication are essential for diver safety. Traditional underwater communication systems are often bulky and expensive, limiting their accessibility to divers of all levels. While recent systems leverage lightweight smartphones and support text messaging, the messages are predefined and thus restrict context-specific communication. In this paper, we present AquaVLM, a tap-and-send underwater communication system that automatically generates context-aware messages and transmits them using ubiquitous smartphones. Our system features a mobile vision-language model (VLM) fine-tuned on an auto-generated underwater conversation dataset and employs a hierarchical message generation pipeline. We co-design the VLM and transmission, incorporating error-resilient fine-tuning to improve the system's robustness to transmission errors. We develop a VR simulator to enable users to experience AquaVLM in a realistic underwater environment and create a fully functional prototype on the iOS platform for real-world experiments. Both subjective and objective evaluations validate the effectiveness of AquaVLM and highlight its potential for personal underwater communication as well as broader mobile VLM applications.
- Abstract(参考訳): スキューバダイビングのような水中活動は、毎年何百万もの海洋環境をレクリエーションや科学研究のために探索することができる。
状況認識と効果的なコミュニケーションを維持することは、ダイバーセーフティにとって不可欠である。
従来の水中通信システムは、しばしばばらばらで高価であり、あらゆるレベルのダイバーにアクセシビリティを制限している。
最近のシステムは軽量なスマートフォンを活用し、テキストメッセージをサポートするが、メッセージは事前に定義され、コンテキスト固有の通信を制限する。
本稿では、コンテキスト認識メッセージを自動的に生成し、ユビキタススマートフォンで送信する、タップ・アンド・サンディング型水中通信システムAquaVLMを提案する。
自動生成水中会話データセットを微調整したモバイルビジョン言語モデル(VLM)を特徴とし,階層的なメッセージ生成パイプラインを用いる。
我々はVLMとトランスミッションを共同設計し、エラー耐性の微調整を取り入れ、トランスミッションエラーに対するシステムのロバスト性を改善する。
我々は,現実的な水中環境下でAquaVLMを体験できるVRシミュレータを開発し,実世界の実験のためのiOSプラットフォーム上で完全に機能するプロトタイプを作成する。
主観的および客観的評価はAquaVLMの有効性を検証し,個人の水中通信やより広範な移動型VLMアプリケーションの可能性を強調した。
関連論文リスト
- NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding [60.76337064425815]
本研究では,水中の自動探査を目的とした水中シーン理解手法について検討する。
NautDataは、8つの水中シーン理解タスクをサポートする1.45Mイメージテキストペアを含むデータセットである。
本稿では,透明な水中情報を明示的に復元するVFEモジュールを提案する。
論文 参考訳(メタデータ) (2025-10-31T14:00:35Z) - SafeDiver: Cooperative AUV-USV Assisted Diver Communication via Multi-agent Reinforcement Learning Approach [0.8873265946210989]
既存の水中ダイバー通信手法は、固有の不利と複雑な水中環境のためにハードルに直面している。
本研究では,海中無人システムを利用して,信頼性の高い高速通信を行うダイバーを支援する手法を提案する。
論文 参考訳(メタデータ) (2025-09-15T01:44:28Z) - Learning Underwater Active Perception in Simulation [51.205673783866146]
タービディティは、検査された構造物の正確な視覚的記録を阻止する可能性があるため、ミッション全体を危険に晒す可能性がある。
従来の研究は、濁度や後方散乱に適応する手法を導入してきた。
本研究では, 広範囲の水環境下での高品質な画像取得を実現するための, 単純かつ効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-23T06:48:38Z) - Towards an Autonomous Surface Vehicle Prototype for Artificial Intelligence Applications of Water Quality Monitoring [68.41400824104953]
本稿では,人工知能アルゴリズムの利用と水質モニタリングのための高感度センシング技術に対処する車両プロトタイプを提案する。
車両には水質パラメータと水深を測定するための高品質なセンサーが装備されている。
ステレオカメラにより、実際の環境でのマクロプラスチックの検出と検出も可能である。
論文 参考訳(メタデータ) (2024-10-08T10:35:32Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Robotic Detection of a Human-Comprehensible Gestural Language for
Underwater Multi-Human-Robot Collaboration [16.823029377470363]
本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。
我々は,会話を観察するダイバーが容易に理解できるAUV-to-A通信のためのジェスチャー言語を設計する。
Asが別のAUVからのジェスチャーを視覚的に理解できるようにするために,自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
論文 参考訳(メタデータ) (2022-07-12T06:04:12Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - DARE: AI-based Diver Action Recognition System using Multi-Channel CNNs
for AUV Supervision [3.5584173777587935]
本稿では,認知自律走行バディデータセットに基づいて学習したダイバー動作認識システムDAREを提案する。
DAREは高速で、1つのステレオペアを分類するのに数ミリ秒しか必要としないため、リアルタイム水中実装に適している。
論文 参考訳(メタデータ) (2020-11-16T04:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。