論文の概要: Empowering Semantic-Sensitive Underwater Image Enhancement with VLM
- arxiv url: http://arxiv.org/abs/2603.12773v1
- Date: Fri, 13 Mar 2026 08:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.995823
- Title: Empowering Semantic-Sensitive Underwater Image Enhancement with VLM
- Title(参考訳): VLMによるセマンティック感性水中画像強調
- Authors: Guodong Fan, Shengning Zhou, Genji Yuan, Huiyu Li, Jingchun Zhou, Jinjiang Li,
- Abstract要約: この研究は、意味に敏感な機能を備えたUIEモデルを強化するための新しい学習メカニズムを提案する。
具体的には、まず、VLM(Vision-Language Models)を用いて、劣化画像からキーオブジェクトのテキスト記述を生成する。
このマップはUIEネットワークを二重誘導機構で制御し、クロスアテンションと明示的なアライメント損失を組み合わせたものだ。
- 参考スコア(独自算出の注目度): 36.64722763619419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, learning-based underwater image enhancement (UIE) techniques have rapidly evolved. However, distribution shifts between high-quality enhanced outputs and natural images can hinder semantic cue extraction for downstream vision tasks, thereby limiting the adaptability of existing enhancement models. To address this challenge, this work proposes a new learning mechanism that leverages Vision-Language Models (VLMs) to empower UIE models with semantic-sensitive capabilities. To be concrete, our strategy first generates textual descriptions of key objects from a degraded image via VLMs. Subsequently, a text-image alignment model remaps these relevant descriptions back onto the image to produce a spatial semantic guidance map. This map then steers the UIE network through a dual-guidance mechanism, which combines cross-attention and an explicit alignment loss. This forces the network to focus its restorative power on semantic-sensitive regions during image reconstruction, rather than pursuing a globally uniform improvement, thereby ensuring the faithful restoration of key object features. Experiments confirm that when our strategy is applied to different UIE baselines, significantly boosts their performance on perceptual quality metrics as well as enhances their performance on detection and segmentation tasks, validating its effectiveness and adaptability.
- Abstract(参考訳): 近年, 学習に基づく水中画像強調技術(UIE)が急速に進歩している。
しかし、高品質な出力と自然画像の分布シフトは、下流視覚タスクのセマンティックキュー抽出を妨げ、既存のエンハンスメントモデルの適応性を制限する。
この課題に対処するために、視覚言語モデル(VLM)を活用して、セマンティックセンシティブな機能を備えたUIEモデルを強化する新しい学習メカニズムを提案する。
具体的には、まず、VLMによる劣化画像からキーオブジェクトのテキスト記述を生成する。
その後、テキスト画像アライメントモデルがこれらの記述を画像に再マップし、空間意味誘導マップを生成する。
このマップはUIEネットワークを二重誘導機構で制御し、クロスアテンションと明示的なアライメント損失を組み合わせたものだ。
これにより、グローバルな統一的な改善を追求するのではなく、画像再構成中の意味に敏感な領域にネットワークを集中させ、キーオブジェクトの特徴の忠実な復元を確実にする。
実験により、我々の戦略が異なるUIEベースラインに適用されると、知覚的品質指標のパフォーマンスが大幅に向上し、検出とセグメンテーションタスクのパフォーマンスが向上し、その有効性と適応性を検証することが確認された。
関連論文リスト
- Large AI Model-Enabled Generative Semantic Communications for Image Transmission [37.127618237197495]
本稿では,キー領域と非キー領域に分割することで,セマンティックな粒度を改良する,革新的な生成意味コミュニケーションシステムを提案する。
重要な視覚情報を含むキー領域は、画像指向セマンティックエンコーダを用いて処理される。
非キー領域は画像からテキストへのモデリング手法によって効率よく圧縮される。
論文 参考訳(メタデータ) (2025-09-24T07:46:38Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。
本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。
損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文 参考訳(メタデータ) (2024-12-26T11:46:22Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。