論文の概要: Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks
- arxiv url: http://arxiv.org/abs/2503.16930v1
- Date: Fri, 21 Mar 2025 08:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:51.037753
- Title: Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks
- Title(参考訳): 視線勾配勾配のDescent-driven All-in-One Deep Unfolding Networks
- Authors: Haijin Zeng, Xiangming Wang, Yongyong Chen, Jingyong Su, Jie Liu,
- Abstract要約: Vision-Language-Guided Unfolding Network (VLU-Net)は、複数の分解タイプを同時に扱うための統合DUNフレームワークである。
VLU-Netは、最初のオールインワンのDUNフレームワークであり、SOTSデハージングデータセットで3.74dB、Rain100Lデラリニングデータセットで1.70dB、現在のリードワンとオールインワンのエンドツーエンドメソッドで3.74dBを上回ります。
- 参考スコア(独自算出の注目度): 14.180694577459425
- License:
- Abstract: Dynamic image degradations, including noise, blur and lighting inconsistencies, pose significant challenges in image restoration, often due to sensor limitations or adverse environmental conditions. Existing Deep Unfolding Networks (DUNs) offer stable restoration performance but require manual selection of degradation matrices for each degradation type, limiting their adaptability across diverse scenarios. To address this issue, we propose the Vision-Language-guided Unfolding Network (VLU-Net), a unified DUN framework for handling multiple degradation types simultaneously. VLU-Net leverages a Vision-Language Model (VLM) refined on degraded image-text pairs to align image features with degradation descriptions, selecting the appropriate transform for target degradation. By integrating an automatic VLM-based gradient estimation strategy into the Proximal Gradient Descent (PGD) algorithm, VLU-Net effectively tackles complex multi-degradation restoration tasks while maintaining interpretability. Furthermore, we design a hierarchical feature unfolding structure to enhance VLU-Net framework, efficiently synthesizing degradation patterns across various levels. VLU-Net is the first all-in-one DUN framework and outperforms current leading one-by-one and all-in-one end-to-end methods by 3.74 dB on the SOTS dehazing dataset and 1.70 dB on the Rain100L deraining dataset.
- Abstract(参考訳): ノイズ、ぼかし、照明の不整合などの動的な画像劣化は、しばしばセンサーの制限や環境の悪さのために、画像復元において重大な課題を生じさせる。
既存のDeep Unfolding Networks (DUN)は、安定した復元性能を提供するが、分解タイプごとに分解行列を手作業で選択する必要がある。
本稿では,複数の分解型を同時に処理する統合DUNフレームワークであるVision-Language-Guided Unfolding Network (VLU-Net)を提案する。
VLU-Netは、劣化した画像とテキストのペアを改良したビジョン・ランゲージ・モデル(VLM)を活用し、画像特徴と劣化記述を整列させ、目標劣化に適した変換を選択する。
VLU-Netは, VLMに基づく勾配自動推定手法をPGDアルゴリズムに統合することにより, 解釈性を維持しつつ, 複雑な多重劣化回復作業に効果的に取り組む。
さらに、VLU-Netフレームワークを強化し、様々なレベルの劣化パターンを効率的に合成する階層的特徴展開構造を設計する。
VLU-Netは、最初のオールインワンのDUNフレームワークであり、SOTSデハージングデータセットで3.74dB、Rain100Lデラリニングデータセットで1.70dB、現在のリードワンとオールインワンのエンドツーエンドメソッドで3.74dBを上回ります。
関連論文リスト
- VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - AoSRNet: All-in-One Scene Recovery Networks via Multi-knowledge
Integration [17.070755601209136]
マルチ知識統合によるオールインワンシーン復元ネットワーク(AoSRNet)を提案する。
ガンマ補正(GC)と最適化線形ストレッチ(OLS)を組み合わせてディテール拡張モジュール(DEM)とカラー復元モジュール(CRM)を作成する。
総合的な実験結果から,AoSRNetの有効性と安定性が他の最先端手法と比較された。
論文 参考訳(メタデータ) (2024-02-06T06:12:03Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Controlling Vision-Language Models for Multi-Task Image Restoration [6.239038964461397]
我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 画像修復作業の高度化と高度化の両面において, 最先端の性能向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T09:10:16Z) - Latent Degradation Representation Constraint for Single Image Deraining [13.414207526373959]
本稿では,DAEncoder(Direction-Aware),UNet Deraining Network,MSIBlockで構成されるLDRCNetを提案する。
合成および実データを用いた実験結果から,本手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-09-09T12:50:06Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening [13.593522290577512]
パンシャーピングは,低分解能マルチスペクトル (LrMS) 画像の空間分解能を,対応するパンクロマティック (PAN) 画像の誘導により向上することを目的としている。
深層学習(DL)に基づくパンシャーピング法は有望な性能を達成しているが、そのほとんどは2倍の欠損を有する。
論文 参考訳(メタデータ) (2023-04-28T03:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。