論文の概要: Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network
- arxiv url: http://arxiv.org/abs/2603.07076v1
- Date: Sat, 07 Mar 2026 07:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.790859
- Title: Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network
- Title(参考訳): RetinexがLanguage: 物理セマンティックスによる水中画像強調ネットワーク
- Authors: Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong,
- Abstract要約: 物理シーマンティックスによる水中画像強調ネットワーク(PSG-UIENet)を提案する。
本ネットワークは、プリエントフリーイルミネーションエスタ、クロスモーダルテキストアリグナー、セマンティックスガイド画像復元器を含む。
提案したPSG-UIENetは15の最先端手法に対して優れた,あるいは同等の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 44.83389527499136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater images often suffer from severe degradation caused by light absorption and scattering, leading to color distortion, low contrast and reduced visibility. Existing Underwater Image Enhancement (UIE) methods can be divided into two categories, i.e., prior-based and learning-based methods. The former rely on rigid physical assumptions that limit the adaptability, while the latter often face data scarcity and weak generalization. To address these issues, we propose a Physics-Semantics-Guided Underwater Image Enhancement Network (PSG-UIENet), which couples the Retinex-grounded illumination correction with the language-informed guidance. This network comprises a Prior-Free Illumination Estimator, a Cross-Modal Text Aligner and a Semantics-Guided Image Restorer. In particular, the restorer leverages the textual descriptions generated by the Contrastive Language-Image Pre-training (CLIP) model to inject high-level semantics for perceptually meaningful guidance. Since multimodal UIE data sets are not publicly available, we also construct a large-scale image-text UIE data set, namely, LUIQD-TD, which contains 6,418 image-reference-text triplets. To explicitly measure and optimize semantic consistency between textual descriptions and images, we further design an Image-Text Semantic Similarity (ITSS) loss function. To our knowledge, this study makes the first effort to introduce both textual guidance and the multimodal data set into UIE tasks. Extensive experiments on our data set and four publicly available data sets demonstrate that the proposed PSG-UIENet achieves superior or comparable performance against fifteen state-of-the-art methods.
- Abstract(参考訳): 水中画像はしばしば光の吸収と散乱によって引き起こされる深刻な劣化に悩まされ、色歪み、低コントラスト、視界の低下につながる。
既存の水中画像強調法(UIE)は,先行的手法と学習的手法の2つのカテゴリに分けられる。
前者は適応性を制限する厳密な物理的仮定に依存し、後者はデータ不足と弱い一般化に直面していることが多い。
これらの課題に対処するために,Retinex-grounded lightumination correct with the language-informed guidanceを併用したPSG-UIENetを提案する。
本ネットワークは、プリエントフリー照明推定器、クロスモーダルテキストアリグナー、セマンティックスガイド画像復元器を備える。
特に、コントラスト言語-画像事前学習(CLIP)モデルによって生成されたテキスト記述を利用して、知覚的に意味のあるガイダンスに高レベルの意味論を注入する。
マルチモーダルUIEデータセットは公開されていないため、大規模な画像テキストUIEデータセットであるLUIQD-TDも構築する。
テキスト記述と画像間の意味的一貫性を明示的に測定し、最適化するために、さらに画像テキスト意味的類似性(ITSS)損失関数を設計する。
我々の知る限り、本研究では、テキストガイダンスとマルチモーダルデータセットの両方をUIEタスクに導入する最初の試みである。
提案したPSG-UIENetは15の最先端手法に対して優れた,あるいは同等の性能を発揮することを示す。
関連論文リスト
- Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。
画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。
私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-11-30T11:27:58Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。