論文の概要: AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis
- arxiv url: http://arxiv.org/abs/2502.01785v1
- Date: Mon, 03 Feb 2025 19:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:22.207180
- Title: AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis
- Title(参考訳): AquaticCLIP:水中シーン解析のための視覚言語基礎モデル
- Authors: Basit Alawode, Iyyakutti Iyappan Ganapathi, Sajid Javed, Naoufel Werghi, Mohammed Bennamoun, Arif Mahmood,
- Abstract要約: AquaticCLIP(AquaticCLIP)は、水文シーン理解に適した、新しいコントラスト言語画像事前学習モデルである。
AquaticCLIPは、画像とテキストを水生環境で整列させる、教師なしの新たな学習フレームワークを提供する。
我々のモデルは水中環境における視覚言語アプリケーションのための新しいベンチマークを設定している。
- 参考スコア(独自算出の注目度): 40.27548815196493
- License:
- Abstract: The preservation of aquatic biodiversity is critical in mitigating the effects of climate change. Aquatic scene understanding plays a pivotal role in aiding marine scientists in their decision-making processes. In this paper, we introduce AquaticCLIP, a novel contrastive language-image pre-training model tailored for aquatic scene understanding. AquaticCLIP presents a new unsupervised learning framework that aligns images and texts in aquatic environments, enabling tasks such as segmentation, classification, detection, and object counting. By leveraging our large-scale underwater image-text paired dataset without the need for ground-truth annotations, our model enriches existing vision-language models in the aquatic domain. For this purpose, we construct a 2 million underwater image-text paired dataset using heterogeneous resources, including YouTube, Netflix, NatGeo, etc. To fine-tune AquaticCLIP, we propose a prompt-guided vision encoder that progressively aggregates patch features via learnable prompts, while a vision-guided mechanism enhances the language encoder by incorporating visual context. The model is optimized through a contrastive pretraining loss to align visual and textual modalities. AquaticCLIP achieves notable performance improvements in zero-shot settings across multiple underwater computer vision tasks, outperforming existing methods in both robustness and interpretability. Our model sets a new benchmark for vision-language applications in underwater environments. The code and dataset for AquaticCLIP are publicly available on GitHub at xxx.
- Abstract(参考訳): 水生生物多様性の保存は、気候変動の影響を緩和するために重要である。
水面の理解は、海洋科学者の意思決定プロセスにおいて重要な役割を担っている。
本稿では,水文シーン理解に適した新しいコントラスト言語画像事前学習モデルであるAquaticCLIPを紹介する。
AquaticCLIPは、画像とテキストを水環境に整列させ、セグメンテーション、分類、検出、オブジェクトカウントといったタスクを可能にする新しい教師なし学習フレームワークを提供する。
大規模水中画像テキストペア化データセットを地平線アノテーションを必要とせずに活用することにより,我々のモデルは水生領域における既存の視覚言語モデルを強化する。
この目的のために、YouTube、Netflix、NatGeoなどを含む異種リソースを使用して、200万の水中画像テキストペアデータセットを構築します。
AquaticCLIPを微調整するために,学習可能なプロンプトを介して段階的にパッチ機能を集約するプロンプト誘導型視覚エンコーダを提案する。
モデルは、視覚的およびテキスト的モダリティを調整するために、対照的な事前訓練損失によって最適化される。
AquaticCLIPは、複数の水中コンピュータビジョンタスクにおけるゼロショット設定における顕著なパフォーマンス向上を実現し、ロバスト性と解釈性の両方において既存の手法よりも優れている。
我々のモデルは水中環境における視覚言語アプリケーションのための新しいベンチマークを設定している。
AquaticCLIPのコードとデータセットはGitHubのxxxで公開されている。
関連論文リスト
- HUPE: Heuristic Underwater Perceptual Enhancement with Semantic Collaborative Learning [62.264673293638175]
既存の水中画像強調法は主に視覚的品質の向上に重点を置いており、実際的な意味を見落としている。
視覚的品質を高め,他の下流タスクに対処する柔軟性を示す,水中知覚向上のための可逆的ネットワークHを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:37:03Z) - FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation [65.01601309903971]
無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。
我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。
本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-25T03:54:01Z) - Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。
第1次大規模水中塩分分節データセット(USIS10K)を構築した。
本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T06:17:33Z) - Separated Attention: An Improved Cycle GAN Based Under Water Image Enhancement Method [0.0]
我々は、損失関数を改良した最先端のサイクルGANモデルのサイクル一貫した学習手法を利用した。
我々は、ベンチマークしたEnhancing Underwater Visual Perceptionデータセット上で、修正された損失関数を用いてCycle GANモデルを訓練した。
アップグレードされた画像は、従来のモデルによるより良い結果を提供し、さらに水中ナビゲーション、ポーズ推定、サリエンシ予測、物体の検出と追跡を行う。
論文 参考訳(メタデータ) (2024-04-11T11:12:06Z) - PUGAN: Physical Model-Guided Underwater Image Enhancement Using GAN with
Dual-Discriminators [120.06891448820447]
鮮明で視覚的に快適な画像を得る方法は、人々の共通の関心事となっている。
水中画像強調(UIE)の課題も、時間とともに現れた。
本稿では,UIE のための物理モデル誘導型 GAN モデルを提案する。
我々のPUGANは質的および定量的な測定値において最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-06-15T07:41:12Z) - Adaptive deep learning framework for robust unsupervised underwater image enhancement [3.0516727053033392]
ディープラーニングベースの水中画像強化における大きな課題の1つは、高品質なトレーニングデータの可用性の制限である。
本研究では、条件付き変分オートエンコーダ(cVAE)を用いて、深層学習モデルのトレーニングを行う、新しい教師なし水中画像強調フレームワークを提案する。
提案手法は, 定量化と定性化の両面において, 他の最先端手法と比較して, 競争性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-18T01:07:20Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - Domain Adaptation for Underwater Image Enhancement via Content and Style
Separation [7.077978580799124]
水中画像は、カラーキャスト、低コントラスト、光吸収、屈折、散乱によるハジー効果に悩まされている。
近年の学習に基づく手法は水中画像の強調に驚くべき性能を示した。
本稿では,コンテンツとスタイル分離による水中画像強調のためのドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-17T09:30:29Z) - Single Underwater Image Enhancement Using an Analysis-Synthesis Network [21.866940227491146]
水中画像強調のためのほとんどの深層モデルは、水中画像形成モデルに基づく合成データセットの訓練に頼っている。
新しい水中合成データセットが最初に確立され、改良された環境光合成方程式が組み込まれている。
ANA-SYNという名前の統一されたフレームワークは、事前情報とデータ情報の協調の下で、効果的に水中画像を強化することができる。
論文 参考訳(メタデータ) (2021-08-20T06:29:12Z) - Domain Adaptive Adversarial Learning Based on Physics Model Feedback for
Underwater Image Enhancement [10.143025577499039]
物理モデルに基づくフィードバック制御と,水中画像の高機能化のための領域適応機構を用いた,新しい頑健な対角学習フレームワークを提案する。
水中画像形成モデルを用いてRGB-Dデータから水中訓練データセットをシミュレーションする新しい手法を提案する。
合成および実水中画像の最終的な改良結果は,提案手法の優位性を示している。
論文 参考訳(メタデータ) (2020-02-20T07:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。