論文の概要: Exploring the Underwater World Segmentation without Extra Training
- arxiv url: http://arxiv.org/abs/2511.07923v1
- Date: Wed, 12 Nov 2025 01:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.545793
- Title: Exploring the Underwater World Segmentation without Extra Training
- Title(参考訳): 余剰訓練を伴わない水中世界セグメンテーションの探索
- Authors: Bingyu Li, Tao Huo, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li,
- Abstract要約: 我々は,最初の大規模かつ微細な水中セグメンテーションデータセットである textbfAquaOV255 を紹介する。
トレーニング不要なOVセグメンテーションフレームワークである textbfEarth2Ocean も紹介する。
- 参考スコア(独自算出の注目度): 55.291219073365546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate segmentation of marine organisms is vital for biodiversity monitoring and ecological assessment, yet existing datasets and models remain largely limited to terrestrial scenes. To bridge this gap, we introduce \textbf{AquaOV255}, the first large-scale and fine-grained underwater segmentation dataset containing 255 categories and over 20K images, covering diverse categories for open-vocabulary (OV) evaluation. Furthermore, we establish the first underwater OV segmentation benchmark, \textbf{UOVSBench}, by integrating AquaOV255 with five additional underwater datasets to enable comprehensive evaluation. Alongside, we present \textbf{Earth2Ocean}, a training-free OV segmentation framework that transfers terrestrial vision--language models (VLMs) to underwater domains without any additional underwater training. Earth2Ocean consists of two core components: a Geometric-guided Visual Mask Generator (\textbf{GMG}) that refines visual features via self-similarity geometric priors for local structure perception, and a Category-visual Semantic Alignment (\textbf{CSA}) module that enhances text embeddings through multimodal large language model reasoning and scene-aware template construction. Extensive experiments on the UOVSBench benchmark demonstrate that Earth2Ocean achieves significant performance improvement on average while maintaining efficient inference.
- Abstract(参考訳): 海洋生物の正確なセグメンテーションは生物多様性のモニタリングと生態学的評価に欠かせないが、既存のデータセットやモデルは地球上の場面に限られている。
このギャップを埋めるために,255のカテゴリと20K以上の画像を含む,最初の大規模かつきめ細かな水中セグメンテーションデータセットである \textbf{AquaOV255} を導入する。
さらに、AquaOV255と5つの追加水中データセットを統合し、総合的な評価を可能にすることにより、最初の水中OVセグメンテーションベンチマークである \textbf{UOVSBench} を確立する。
同時に、地上視覚言語モデル(VLM)を追加の水中トレーニングなしで水中ドメインに転送する、訓練不要なOVセグメンテーションフレームワークである「textbf{Earth2Ocean}」を提示する。
Earth2Oceanは2つのコアコンポーネントで構成されている: 幾何学誘導視覚マスクジェネレータ(\textbf{GMG})は、局所構造知覚のための自己相似的な幾何学的先行性を通して視覚的特徴を洗練する。
UOVSBenchベンチマークの大規模な実験により、Earth2Oceanは効率的な推論を維持しつつ、平均的なパフォーマンス向上を実現していることが示された。
関連論文リスト
- Expose Camouflage in the Water: Underwater Camouflaged Instance Segmentation and Dataset [76.92197418745822]
カモフラージュされたインスタンスセグメンテーション(CIS)は、周囲と密接に融合したオブジェクトを正確にセグメンテーションする際の大きな課題に直面します。
従来のカモフラージュされたインスタンスセグメンテーション法は、水中のサンプルが限られている地球上で支配的なデータセットに基づいて訓練されており、水中のシーンでは不十分な性能を示す可能性がある。
本研究は,海中カモフラージュされた海洋生物の3,953枚の画像とインスタンスレベルのアノテーションを含む,最初の水中カモフラージュされたインスタンスセグメンテーションデータセットUCIS4Kを紹介する。
論文 参考訳(メタデータ) (2025-10-20T14:34:51Z) - MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment [56.88334234553316]
我々は,水中オープンボキャブラリ(OV)セグメンテーションのための大規模なベンチマークであるtextbfMARIS (underlineMarine Open-Vocabulary underlineInstance underlineSegmentation)を紹介した。
当社のフレームワークは、既存のOVベースラインであるIn-DomainとCross-Domainの両方を一貫して上回ります。
論文 参考訳(メタデータ) (2025-10-17T07:50:58Z) - USIS16K: High-Quality Dataset for Underwater Salient Instance Segmentation [11.590111778515775]
16,151個の高分解能水中画像からなる大規模データセットであるUSIS16Kを紹介する。
各画像には高品質のインスタンスレベルのサルエントオブジェクトマスクが付加されている。
USIS16Kを用いた水中物体検出とUSISタスクのベンチマーク評価を行った。
論文 参考訳(メタデータ) (2025-06-24T09:58:01Z) - Advancing Marine Research: UWSAM Framework and UIIS10K Dataset for Precise Underwater Instance Segmentation [110.02397462607449]
大規模な水中インスタンスセグメンテーションデータセットであるUIIS10Kを提案する。
次に,水中インスタンスの自動・高精度セグメンテーションのための効率的なモデルであるUWSAMを紹介する。
複数の水中インスタンスデータセット上での最先端手法よりも優れた性能向上を実現し,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2025-05-21T14:36:01Z) - Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。
第1次大規模水中塩分分節データセット(USIS10K)を構築した。
本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T06:17:33Z) - SVAM: Saliency-guided Visual Attention Modeling by Autonomous Underwater
Robots [16.242924916178282]
本稿では,自律型水中ロボットの視覚的注意モデル(SVAM)に対する総合的なアプローチを提案する。
提案するSVAM-Netは,様々なスケールの深部視覚的特徴を統合し,自然水中画像に有効なSOD(Salient Object Detection)を実現する。
論文 参考訳(メタデータ) (2020-11-12T08:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。