論文の概要: MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment
- arxiv url: http://arxiv.org/abs/2510.15398v2
- Date: Thu, 23 Oct 2025 07:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.546673
- Title: MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment
- Title(参考訳): MARIS: 幾何学的拡張とセマンティックアライメントを併用した海洋オープンボキャブラリインスタンスセグメンテーション
- Authors: Bingyu Li, Feiyu Wang, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li,
- Abstract要約: 我々は,水中オープンボキャブラリ(OV)セグメンテーションのための大規模なベンチマークであるtextbfMARIS (underlineMarine Open-Vocabulary underlineInstance underlineSegmentation)を紹介した。
当社のフレームワークは、既存のOVベースラインであるIn-DomainとCross-Domainの両方を一貫して上回ります。
- 参考スコア(独自算出の注目度): 56.88334234553316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing underwater instance segmentation approaches are constrained by close-vocabulary prediction, limiting their ability to recognize novel marine categories. To support evaluation, we introduce \textbf{MARIS} (\underline{Mar}ine Open-Vocabulary \underline{I}nstance \underline{S}egmentation), the first large-scale fine-grained benchmark for underwater Open-Vocabulary (OV) segmentation, featuring a limited set of seen categories and diverse unseen categories. Although OV segmentation has shown promise on natural images, our analysis reveals that transfer to underwater scenes suffers from severe visual degradation (e.g., color attenuation) and semantic misalignment caused by lack underwater class definitions. To address these issues, we propose a unified framework with two complementary components. The Geometric Prior Enhancement Module (\textbf{GPEM}) leverages stable part-level and structural cues to maintain object consistency under degraded visual conditions. The Semantic Alignment Injection Mechanism (\textbf{SAIM}) enriches language embeddings with domain-specific priors, mitigating semantic ambiguity and improving recognition of unseen categories. Experiments show that our framework consistently outperforms existing OV baselines both In-Domain and Cross-Domain setting on MARIS, establishing a strong foundation for future underwater perception research.
- Abstract(参考訳): 既存の水中のインスタンスセグメンテーションアプローチは、新しい海洋カテゴリーを認識する能力を制限するために、語彙に近い予測によって制約されている。
評価を支援するために,水中オープンボキャブラリ (OV) セグメンテーションのための大規模なベンチマークである \textbf{MARIS} (\underline{Mar}ine Open-Vocabulary \underline{I}nstance \underline{S}egmentation) を導入する。
OVセグメンテーションは自然画像に有望であるが, 水中のシーンへの移動は, 水中のクラス定義の欠如による視覚的劣化(例えば, 色減衰)と意味的不整合(semantic misalignment)に悩まされていることが明らかとなった。
これらの問題に対処するため、我々は2つの相補的なコンポーネントを持つ統一されたフレームワークを提案する。
Geometric Prior Enhancement Module (\textbf{GPEM})は、安定な部分レベルと構造的キューを利用して、劣化した視覚条件下でオブジェクトの一貫性を維持する。
Semantic Alignment Injection Mechanism (\textbf{SAIM})は、言語埋め込みをドメイン固有の先行と豊かにし、意味的曖昧さを緩和し、目に見えないカテゴリの認識を改善する。
実験の結果、我々のフレームワークは既存のOVベースラインとMARISのクロスドメイン設定の両方を一貫して上回り、将来の水中知覚研究の強力な基盤を確立していることがわかった。
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models [35.947354809849166]
Open-Vocabulary Camouflaged Objectは、任意のカテゴリからカモフラージュされたオブジェクトを分類し分類しようとする。
最近のアプローチでは一般的に2段階のパラダイムが採用されている。
本稿では,OVCOSにおけるこれらの問題に対処する新しいVLM誘導型ケースドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-24T04:16:41Z) - Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation [8.068623902839368]
Open-Vocabulary semantic segmentation (OVSS)とDomain Generalization in semantic segmentation (DGSS)は微妙な相補性を強調している。
OV-DGSSは、見えない領域にまたがる堅牢性を保ちながら、見えないカテゴリのためのピクセルレベルのマスクを生成することを目的としている。
我々は,OVSSとDGSSの強みを初めて統一する,OV-DGSSのための新しい単一ステージフレームワークであるVireoを紹介する。
論文 参考訳(メタデータ) (2025-06-11T15:54:47Z) - Marine Saliency Segmenter: Object-Focused Conditional Diffusion with Region-Level Semantic Knowledge Distillation [44.50637633194709]
海洋衛生(MSS)は、様々な視覚に基づく海洋探査において重要な役割を担っている。
拡散モデルに基づく新しい海洋塩分セグメンタDiffMSSを提案する。
我々は、過度に信頼された誤認識を抑制するために、専用決定論的コンセンサスサンプリングを開発する。
論文 参考訳(メタデータ) (2025-04-03T08:31:36Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Amplitude Spectrum Transformation for Open Compound Domain Adaptive
Semantic Segmentation [62.68759523116924]
オープン化合物ドメイン適応(OCDA)は、実用的な適応セットとして現れている。
我々は、新しい特徴空間振幅スペクトル変換(AST)を提案する。
論文 参考訳(メタデータ) (2022-02-09T05:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。