論文の概要: UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding
- arxiv url: http://arxiv.org/abs/2510.18262v1
- Date: Tue, 21 Oct 2025 03:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.843589
- Title: UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding
- Title(参考訳): UWBench: 水中理解のための総合的な視覚言語ベンチマーク
- Authors: Da Zhang, Chenggang Rong, Bingyu Li, Feiyu Wang, Zhiyuan Zhao, Junyu Gao, Xuelong Li,
- Abstract要約: 視覚言語モデル(VLM)は自然界の理解において顕著な成功を収めた。
水中画像は、厳しい光の減衰、色歪み、懸濁粒子散乱などの固有の課題を呈している。
水中視覚言語理解のためのベンチマークであるUWBenchを紹介する。
- 参考スコア(独自算出の注目度): 54.16709436340606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) have achieved remarkable success in natural scene understanding, yet their application to underwater environments remains largely unexplored. Underwater imagery presents unique challenges including severe light attenuation, color distortion, and suspended particle scattering, while requiring specialized knowledge of marine ecosystems and organism taxonomy. To bridge this gap, we introduce UWBench, a comprehensive benchmark specifically designed for underwater vision-language understanding. UWBench comprises 15,003 high-resolution underwater images captured across diverse aquatic environments, encompassing oceans, coral reefs, and deep-sea habitats. Each image is enriched with human-verified annotations including 15,281 object referring expressions that precisely describe marine organisms and underwater structures, and 124,983 question-answer pairs covering diverse reasoning capabilities from object recognition to ecological relationship understanding. The dataset captures rich variations in visibility, lighting conditions, and water turbidity, providing a realistic testbed for model evaluation. Based on UWBench, we establish three comprehensive benchmarks: detailed image captioning for generating ecologically informed scene descriptions, visual grounding for precise localization of marine organisms, and visual question answering for multimodal reasoning about underwater environments. Extensive experiments on state-of-the-art VLMs demonstrate that underwater understanding remains challenging, with substantial room for improvement. Our benchmark provides essential resources for advancing vision-language research in underwater contexts and supporting applications in marine science, ecological monitoring, and autonomous underwater exploration. Our code and benchmark will be available.
- Abstract(参考訳): 大型視覚言語モデル (VLM) は自然界の理解において顕著な成功を収めているが、水中環境への応用は未解明のままである。
水中画像は、海洋生態系や生物分類学の専門知識を必要としながら、厳しい光減衰、色歪み、懸濁粒子散乱などの固有の課題を呈している。
このギャップを埋めるために、水中視覚言語理解に特化した包括的なベンチマークであるUWBenchを紹介する。
UWBenchは、海洋、サンゴ礁、深海生息地を含む様々な水生環境で撮影された15,003個の高解像度水中画像で構成されている。
それぞれの画像には、海洋生物や水中構造を正確に記述した15,281個のオブジェクトを参照するアノテーションや、物体認識から生態的関係理解まで多様な推論能力をカバーする124,983個の質問応答ペアが含まれている。
このデータセットは、可視性、照明条件、水濁度の豊富なバリエーションを捉え、モデル評価のための現実的なテストベッドを提供する。
UWBenchをベースとした3つの総合的なベンチマークを構築した。生態学的環境記述を生成するための詳細な画像キャプション、海洋生物の正確な位置推定のための視覚的グラウンド、水中環境に関するマルチモーダルな推論のための視覚的質問応答である。
最先端のVLMに関する大規模な実験は、水中での理解は依然として困難であり、改善の余地がかなりあることを示している。
本ベンチマークは, 水中環境における視覚言語研究の進展と海洋科学, 生態モニタリング, 自律型水中探査への応用を支援するための重要な資源を提供する。
コードとベンチマークが利用可能になります。
関連論文リスト
- Expose Camouflage in the Water: Underwater Camouflaged Instance Segmentation and Dataset [76.92197418745822]
カモフラージュされたインスタンスセグメンテーション(CIS)は、周囲と密接に融合したオブジェクトを正確にセグメンテーションする際の大きな課題に直面します。
従来のカモフラージュされたインスタンスセグメンテーション法は、水中のサンプルが限られている地球上で支配的なデータセットに基づいて訓練されており、水中のシーンでは不十分な性能を示す可能性がある。
本研究は,海中カモフラージュされた海洋生物の3,953枚の画像とインスタンスレベルのアノテーションを含む,最初の水中カモフラージュされたインスタンスセグメンテーションデータセットUCIS4Kを紹介する。
論文 参考訳(メタデータ) (2025-10-20T14:34:51Z) - OceanGym: A Benchmark Environment for Underwater Embodied Agents [69.56465775825275]
OceanGymは、海洋水中のエンボディエージェントに関する最初の総合的なベンチマークである。
それは、最も要求の多い現実世界環境の1つでAIを前進させるように設計されている。
高忠実で厳格に設計されたプラットフォームを提供することで、OceanGymは堅牢なエンボディAIを開発するためのテストベッドを確立する。
論文 参考訳(メタデータ) (2025-09-30T17:09:32Z) - DEEP-SEA: Deep-Learning Enhancement for Environmental Perception in Submerged Aquatics [5.543187582839764]
継続的で信頼性の高い水中モニタリングは、海洋生物多様性の評価、生態学的変化の検出、自律探査に不可欠である。
水中環境は、光散乱、吸収、濁度により、画像の明瞭度を低下させ、色情報を歪ませることによる重要な課題を呈している。
空間構造を保存しながら低周波情報と高周波情報を両立させる深層学習に基づく水中画像復元モデルDEEP-SEAを提案する。
論文 参考訳(メタデータ) (2025-08-18T11:07:26Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation [65.01601309903971]
無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。
我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。
本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-25T03:54:01Z) - UMono: Physical Model Informed Hybrid CNN-Transformer Framework for Underwater Monocular Depth Estimation [5.596432047035205]
水中の単分子深度推定は、水中のシーンの3次元再構成などの作業の基礎となる。
既存の手法では、水中環境の特徴を考慮できない。
本稿では,UMonoと呼ばれる水中単分子深度推定のためのエンドツーエンド学習フレームワークについて述べる。
論文 参考訳(メタデータ) (2024-07-25T07:52:11Z) - Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。
第1次大規模水中塩分分節データセット(USIS10K)を構築した。
本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T06:17:33Z) - Deep Learning Innovations for Underwater Waste Detection: An In-Depth Analysis [0.0]
本稿では, 埋立廃棄物処理とごみ処理の基盤となるため, 最先端のアーキテクチャと既存のデータセットを網羅的に検討する。
第一の目的は、高度な水中センサーと自律型水中車両によって活用される物体の局所化手法のベンチマークを確立することである。
論文 参考訳(メタデータ) (2024-05-28T15:51:18Z) - Virtual Underwater Datasets for Autonomous Inspections [0.0]
本研究では,実験室で収集したアイテムの写真から,ベスポークデータセットを構築した。
GAN(Generative Adversarial Networks)は、実験対象のデータセットを水中ドメインに変換するために使用される。
その結果得られた画像は、実際の水中の船体画像と比較すると、実際の水中環境とよく似ている。
論文 参考訳(メタデータ) (2022-09-13T14:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。