論文の概要: Assessing Vision-Language Models for Perception in Autonomous Underwater Robotic Software
- arxiv url: http://arxiv.org/abs/2602.10655v1
- Date: Wed, 11 Feb 2026 08:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.607943
- Title: Assessing Vision-Language Models for Perception in Autonomous Underwater Robotic Software
- Title(参考訳): 自律型水中ロボットソフトウェアの視覚・言語モデルによる知覚の評価
- Authors: Muhammad Yousaf, Aitor Arrieta, Shaukat Ali, Paolo Arcaini, Shuai Wang,
- Abstract要約: Vision-Language Models (VLMs) は自律型水中ロボット(AURs)に有望なソリューションを提供する
AURソフトウェアにおけるVLMに基づく知覚モジュールの実証評価について述べる。
- 参考スコア(独自算出の注目度): 11.787013371593458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous Underwater Robots (AURs) operate in challenging underwater environments, including low visibility and harsh water conditions. Such conditions present challenges for software engineers developing perception modules for the AUR software. To successfully carry out these tasks, deep learning has been incorporated into the AUR software to support its operations. However, the unique challenges of underwater environments pose difficulties for deep learning models, which often rely on labeled data that is scarce and noisy. This may undermine the trustworthiness of AUR software that relies on perception modules. Vision-Language Models (VLMs) offer promising solutions for AUR software as they generalize to unseen objects and remain robust in noisy conditions by inferring information from contextual cues. Despite this potential, their performance and uncertainty in underwater environments remain understudied from a software engineering perspective. Motivated by the needs of an industrial partner in assurance and risk management for maritime systems to assess the potential use of VLMs in this context, we present an empirical evaluation of VLM-based perception modules within the AUR software. We assess their ability to detect underwater trash by computing performance, uncertainty, and their relationship, to enable software engineers to select appropriate VLMs for their AUR software.
- Abstract(参考訳): 自律型水中ロボット(AUR)は、低視認性と厳しい水環境を含む、挑戦的な水中環境で動作する。
このような条件は、AURソフトウェアのための知覚モジュールを開発するソフトウェアエンジニアにとって課題となる。
これらのタスクをうまく実行するために、ディープラーニングはそのオペレーションをサポートするためにAURソフトウェアに組み込まれている。
しかし、水中環境の独特な課題は深層学習モデルに困難をもたらし、しばしばラベル付きデータに頼っている。
これは、知覚モジュールに依存するAURソフトウェアの信頼性を損なう可能性がある。
Vision-Language Models (VLM) は、AURソフトウェアに期待できる解決策を提供する。
この可能性にもかかわらず、彼らの水中環境における性能と不確実性は、ソフトウェア工学の観点から検討されている。
この文脈におけるVLMの潜在的な利用を評価するために,産業パートナーの海洋システムの保証とリスク管理の必要性から,AURソフトウェア内のVLMベースの認識モジュールを実証的に評価する。
性能,不確実性,およびそれらの関係を計算することで,水中ゴミの検出能力を評価し,ソフトウェア技術者が自身のAURソフトウェアに適切なVLMを選択できるようにする。
関連論文リスト
- Agentic Software Issue Resolution with Large Language Models: A Survey [9.583478737157531]
ソフトウェア問題解決は,ユーザが提供する自然言語記述に基づいて,ソフトウェアリポジトリの現実的な問題に対処することを目的としている。
推論と生成能力の大規模言語モデル(LLM)は、自動ソフトウェア問題解決において大きな進歩をもたらした。
近年,LSMベースのエージェントシステムがソフトウェア問題解決の主流となっている。
論文 参考訳(メタデータ) (2025-12-24T08:05:10Z) - Learning Underwater Active Perception in Simulation [51.205673783866146]
タービディティは、検査された構造物の正確な視覚的記録を阻止する可能性があるため、ミッション全体を危険に晒す可能性がある。
従来の研究は、濁度や後方散乱に適応する手法を導入してきた。
本研究では, 広範囲の水環境下での高品質な画像取得を実現するための, 単純かつ効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-23T06:48:38Z) - Assessing LLMs for Front-end Software Architecture Knowledge [0.0]
大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において大きな可能性を証明している。
本研究では,VIPER アーキテクチャ内の構造を理解し,再現し,生成する LLM の機能について検討する。
実験の結果、ChatGPT 4 Turbo 2024-04-09 を用いて、LLM は評価や作成といった高次タスクに優れていたが、アーキテクチャの詳細の正確な検索を必要とする低次タスクでは課題に直面していたことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-26T19:33:35Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Sonar-based Deep Learning in Underwater Robotics: Overview, Robustness and Challenges [0.46873264197900916]
水中でのソナーの使用は、限られた訓練データと固有のノイズが特徴であり、頑丈さをモデル化する上での課題となっている。
本稿では,分類,物体検出,セグメンテーション,SLAMなどのソナーベース認知タスクモデルについて検討する。
ソナーベースの最先端データセット、シミュレータ、ニューラルネットワーク検証、アウト・オブ・ディストリビューション、敵攻撃などの堅牢性メソッドを体系化する。
論文 参考訳(メタデータ) (2024-12-16T15:03:08Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - Automated Machine Learning: A Case Study on Non-Intrusive Appliance Load Monitoring [81.06807079998117]
非侵入的機器負荷モニタリング(NIALM)のための自動機械学習(AutoML)を実現する新しい手法を提案する。
NIALMは、電子機器や家電のエネルギー消費を測定するためのスマートメーターに代わる費用対効果を提供する。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z) - Security for Machine Learning-based Software Systems: a survey of
threats, practices and challenges [0.76146285961466]
機械学習ベースのモダンソフトウェアシステム(MLBSS)を安全に開発する方法は、依然として大きな課題である。
潜伏中の脆弱性と、外部のユーザーや攻撃者に暴露されるプライバシー問題は、ほとんど無視され、特定が難しい。
機械学習ベースのソフトウェアシステムのセキュリティは、固有のシステム欠陥や外敵攻撃から生じる可能性があると考えている。
論文 参考訳(メタデータ) (2022-01-12T23:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。