論文の概要: VL-UR: Vision-Language-guided Universal Restoration of Images Degraded by Adverse Weather Conditions
- arxiv url: http://arxiv.org/abs/2504.08219v1
- Date: Fri, 11 Apr 2025 02:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 21:36:54.830666
- Title: VL-UR: Vision-Language-guided Universal Restoration of Images Degraded by Adverse Weather Conditions
- Title(参考訳): VL-UR: 逆気象条件で劣化した画像の視覚言語誘導によるユニバーサル復元
- Authors: Ziyan Liu, Yuxu Lu, Huashan Yu, Dong yang,
- Abstract要約: 視覚言語誘導型ユニバーサル修復フレームワーク(VL-UR)を提案する。
VL-URは視覚情報と意味情報を統合し、視覚情報と意味情報を統合することで画像復元を強化する。
11の多様な劣化設定に対する実験は、VL-URの最先端性能、堅牢性、適応性を示している。
- 参考スコア(独自算出の注目度): 3.0133850348026936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image restoration is critical for improving the quality of degraded images, which is vital for applications like autonomous driving, security surveillance, and digital content enhancement. However, existing methods are often tailored to specific degradation scenarios, limiting their adaptability to the diverse and complex challenges in real-world environments. Moreover, real-world degradations are typically non-uniform, highlighting the need for adaptive and intelligent solutions. To address these issues, we propose a novel vision-language-guided universal restoration (VL-UR) framework. VL-UR leverages a zero-shot contrastive language-image pre-training (CLIP) model to enhance image restoration by integrating visual and semantic information. A scene classifier is introduced to adapt CLIP, generating high-quality language embeddings aligned with degraded images while predicting degraded types for complex scenarios. Extensive experiments across eleven diverse degradation settings demonstrate VL-UR's state-of-the-art performance, robustness, and adaptability. This positions VL-UR as a transformative solution for modern image restoration challenges in dynamic, real-world environments.
- Abstract(参考訳): 画像復元は劣化した画像の品質向上に不可欠であり、自動運転、セキュリティ監視、デジタルコンテンツの強化といったアプリケーションには不可欠である。
しかし、既存の手法はしばしば特定の劣化シナリオに合わせて調整され、現実の環境における多様な複雑な課題への適応性を制限する。
さらに、現実世界の劣化は通常一様ではなく、適応的でインテリジェントなソリューションの必要性を強調している。
これらの課題に対処するために,視覚言語誘導ユニバーサル・リストア(VL-UR)フレームワークを提案する。
VL-URはゼロショットコントラスト言語画像事前学習(CLIP)モデルを活用し、視覚情報と意味情報を統合することで画像復元を強化する。
シーン分類器がCLIPに適応するために導入され、複雑なシナリオの劣化した型を予測しながら、劣化したイメージと整合した高品質な言語埋め込みを生成する。
VL-URの最先端性能、堅牢性、適応性を示す。
これにより、VL-URは、動的で現実世界の環境において、現代の画像復元の課題に対する変革的な解決策として位置づけられる。
関連論文リスト
- Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts [58.99648692413168]
現在の画像融合法は、現実の撮像シナリオで発生する複合劣化に対処するのに苦労している。
複合劣化を適応的に中和する制御フュージョンを提案する。
実験では、制御フュージョンは、融合品質と劣化処理においてSOTA融合法より優れている。
論文 参考訳(メタデータ) (2025-03-30T08:18:53Z) - Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks [14.180694577459425]
Vision-Language-Guided Unfolding Network (VLU-Net)は、複数の分解タイプを同時に扱うための統合DUNフレームワークである。
VLU-Netは、最初のオールインワンのDUNフレームワークであり、SOTSデハージングデータセットで3.74dB、Rain100Lデラリニングデータセットで1.70dB、現在のリードワンとオールインワンのエンドツーエンドメソッドで3.74dBを上回ります。
論文 参考訳(メタデータ) (2025-03-21T08:02:48Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - PromptHSI: Universal Hyperspectral Image Restoration with Vision-Language Modulated Frequency Adaptation [28.105125164852367]
本稿では,初のユニバーサルAiO HSI復元フレームワークであるPromptHSIを提案する。
提案手法では,テキストプロンプトを強度とバイアスコントローラに分解し,回復過程を効果的に導く。
我々のアーキテクチャは、さまざまな劣化シナリオにおいて、きめ細かい回復とグローバルな情報復元の両方に優れています。
論文 参考訳(メタデータ) (2024-11-24T17:08:58Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion [27.52552274944687]
低解像度画像のコンテンツや劣化を認識する拡散モデルの能力を高める新しい2段階の劣化認識フレームワークを提案する。
最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。
第2段階では、分解対応モジュールを単純化されたControlNetに統合し、様々な劣化への柔軟な適応を可能にします。
論文 参考訳(メタデータ) (2024-03-31T12:07:04Z) - Controlling Vision-Language Models for Multi-Task Image Restoration [6.239038964461397]
我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 画像修復作業の高度化と高度化の両面において, 最先端の性能向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T09:10:16Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Real-world Person Re-Identification via Degradation Invariance Learning [111.86722193694462]
現実のシナリオにおける人物再識別(Re-ID)は通常、低解像度、弱い照明、ぼやけ、悪天候などの様々な劣化要因に悩まされる。
本稿では,現実世界のRe-IDを対象とした劣化不変学習フレームワークを提案する。
自己教師付き不整合表現学習戦略を導入することにより,個人性に関連する頑健な特徴を同時に抽出することができる。
論文 参考訳(メタデータ) (2020-04-10T07:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。