論文の概要: VL-UR: Vision-Language-guided Universal Restoration of Images Degraded by Adverse Weather Conditions
- arxiv url: http://arxiv.org/abs/2504.08219v1
- Date: Fri, 11 Apr 2025 02:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:57.084866
- Title: VL-UR: Vision-Language-guided Universal Restoration of Images Degraded by Adverse Weather Conditions
- Title(参考訳): VL-UR: 逆気象条件で劣化した画像の視覚言語誘導によるユニバーサル復元
- Authors: Ziyan Liu, Yuxu Lu, Huashan Yu, Dong yang,
- Abstract要約: 視覚言語誘導型ユニバーサル修復フレームワーク(VL-UR)を提案する。
VL-URは視覚情報と意味情報を統合し、視覚情報と意味情報を統合することで画像復元を強化する。
11の多様な劣化設定に対する実験は、VL-URの最先端性能、堅牢性、適応性を示している。
- 参考スコア(独自算出の注目度): 3.0133850348026936
- License:
- Abstract: Image restoration is critical for improving the quality of degraded images, which is vital for applications like autonomous driving, security surveillance, and digital content enhancement. However, existing methods are often tailored to specific degradation scenarios, limiting their adaptability to the diverse and complex challenges in real-world environments. Moreover, real-world degradations are typically non-uniform, highlighting the need for adaptive and intelligent solutions. To address these issues, we propose a novel vision-language-guided universal restoration (VL-UR) framework. VL-UR leverages a zero-shot contrastive language-image pre-training (CLIP) model to enhance image restoration by integrating visual and semantic information. A scene classifier is introduced to adapt CLIP, generating high-quality language embeddings aligned with degraded images while predicting degraded types for complex scenarios. Extensive experiments across eleven diverse degradation settings demonstrate VL-UR's state-of-the-art performance, robustness, and adaptability. This positions VL-UR as a transformative solution for modern image restoration challenges in dynamic, real-world environments.
- Abstract(参考訳): 画像復元は劣化した画像の品質向上に不可欠であり、自動運転、セキュリティ監視、デジタルコンテンツの強化といったアプリケーションには不可欠である。
しかし、既存の手法はしばしば特定の劣化シナリオに合わせて調整され、現実の環境における多様な複雑な課題への適応性を制限する。
さらに、現実世界の劣化は通常一様ではなく、適応的でインテリジェントなソリューションの必要性を強調している。
これらの課題に対処するために,視覚言語誘導ユニバーサル・リストア(VL-UR)フレームワークを提案する。
VL-URはゼロショットコントラスト言語画像事前学習(CLIP)モデルを活用し、視覚情報と意味情報を統合することで画像復元を強化する。
シーン分類器がCLIPに適応するために導入され、複雑なシナリオの劣化した型を予測しながら、劣化したイメージと整合した高品質な言語埋め込みを生成する。
VL-URの最先端性能、堅牢性、適応性を示す。
これにより、VL-URは、動的で現実世界の環境において、現代の画像復元の課題に対する変革的な解決策として位置づけられる。
関連論文リスト
- FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Adaptive Blind All-in-One Image Restoration [15.726917603679716]
ブラインドオールインワン画像復元モデルは、未知の歪みで劣化した入力から高品質な画像を復元することを目的としている。
ABAIRは、単純で効果的な適応型ブラインドオールインワン修復モデルであり、複数の劣化を処理し、目に見えない歪みをうまく一般化する。
提案モデルは,5段と3段のIR構成における最先端性能を上回るだけでなく,目に見えない劣化や複合歪みに対して優れた一般化を示す。
論文 参考訳(メタデータ) (2024-11-27T14:58:08Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion [27.52552274944687]
低解像度画像のコンテンツや劣化を認識する拡散モデルの能力を高める新しい2段階の劣化認識フレームワークを提案する。
最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。
第2段階では、分解対応モジュールを単純化されたControlNetに統合し、様々な劣化への柔軟な適応を可能にします。
論文 参考訳(メタデータ) (2024-03-31T12:07:04Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Real-world Person Re-Identification via Degradation Invariance Learning [111.86722193694462]
現実のシナリオにおける人物再識別(Re-ID)は通常、低解像度、弱い照明、ぼやけ、悪天候などの様々な劣化要因に悩まされる。
本稿では,現実世界のRe-IDを対象とした劣化不変学習フレームワークを提案する。
自己教師付き不整合表現学習戦略を導入することにより,個人性に関連する頑健な特徴を同時に抽出することができる。
論文 参考訳(メタデータ) (2020-04-10T07:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。