論文の概要: VLM-Augmented Degradation Modeling for Image Restoration Under Adverse Weather Conditions
- arxiv url: http://arxiv.org/abs/2511.16998v1
- Date: Fri, 21 Nov 2025 07:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.914672
- Title: VLM-Augmented Degradation Modeling for Image Restoration Under Adverse Weather Conditions
- Title(参考訳): 逆気象下における画像復元のためのVLM拡張劣化モデル
- Authors: Qianyi Shao, Yuanfan Zhang, Renxiang Xiao, Liang Hu,
- Abstract要約: 各種気象条件下での劣化レベルから画像を復元するメモリ拡張型ビジュアル・ランゲージ・リカバリ・モデルを提案する。
実験により,MVLRは様々な屋外条件下でのリアルタイム展開において,モデルコンパクト性と表現性の間に実践的なバランスを与えることが示された。
- 参考スコア(独自算出の注目度): 2.7559126341745954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable visual perception under adverse weather conditions, such as rain, haze, snow, or a mixture of them, is desirable yet challenging for autonomous driving and outdoor robots. In this paper, we propose a unified Memory-Enhanced Visual-Language Recovery (MVLR) model that restores images from different degradation levels under various weather conditions. MVLR couples a lightweight encoder-decoder backbone with a Visual-Language Model (VLM) and an Implicit Memory Bank (IMB). The VLM performs chain-of-thought inference to encode weather degradation priors and the IMB stores continuous latent representations of degradation patterns. The VLM-generated priors query the IMB to retrieve fine-grained degradation prototypes. These prototypes are then adaptively fused with multi-scale visual features via dynamic cross-attention mechanisms, enhancing restoration accuracy while maintaining computational efficiency. Extensive experiments on four severe-weather benchmarks show that MVLR surpasses single-branch and Mixture-of-Experts baselines in terms of Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index Measure (SSIM). These results indicate that MVLR offers a practical balance between model compactness and expressiveness for real-time deployment in diverse outdoor conditions.
- Abstract(参考訳): 雨、干し草、雪、混ざり合いなどの悪天候下での信頼性の高い視覚認識は、自律走行ロボットや屋外ロボットにとって望ましい課題である。
本稿では,様々な気象条件下での劣化レベルから画像を復元するMVLRモデルを提案する。
MVLRは、軽量エンコーダデコーダバックボーンと、Visual-Language Model (VLM) と Implicit Memory Bank (IMB) を結合している。
VLMは、気象劣化先行をエンコードするためにチェーン・オブ・シント推論を行い、IMBは、劣化パターンの連続的な潜時表現を記憶する。
VLM生成したプリエントはIMBに問い合わせて、きめ細かい劣化プロトタイプを検索する。
これらのプロトタイプは、動的クロスアテンション機構を介してマルチスケールの視覚的特徴と適応的に融合し、計算効率を維持しながら復元精度を向上する。
4つの重度ウェザーベンチマークの大規模な実験により、MVLRはPak Signal-to-Noise Ratio (PSNR) とStructuor similarity Index Measure (SSIM) の観点から、シングルブランチとMixture-of-Expertsベースラインを超えることが示された。
これらの結果から,MVLRは様々な屋外条件下でのリアルタイム展開において,モデルコンパクト性と表現性の間に実践的なバランスを保っていることが示唆された。
関連論文リスト
- DeRainMamba: A Frequency-Aware State Space Model with Detail Enhancement for Image Deraining [7.900269590721382]
周波数対応状態空間モジュール(FASSM)と多方向知覚畳み込み(MDPConv)を統合したDeRainMambaを提案する。
4つの公開ベンチマークでの大規模な実験により、DeRainMambaはPSNRとSSIMの最先端手法を一貫して上回っていることが示された。
その結果, 単一画像デライニングのための状態空間フレームワークにおける周波数領域モデリングと空間的詳細化の併用の有効性が検証された。
論文 参考訳(メタデータ) (2025-10-08T08:05:11Z) - WeatherCycle: Unpaired Multi-Weather Restoration via Color Space Decoupled Cycle Learning [30.62082910458533]
マルチウェザー条件下での教師なし画像復元は根本的だが未発見の課題である。
気象の回復を双方向の劣化コンテンツ翻訳サイクルとして再構成する統合フレームワークである textbfWeatherCycle を提案する。
本手法は, 複雑な気象劣化に対する強い一般化を図りながら, 教師なしアプローチの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-27T06:44:27Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration [22.746234919635018]
多状態視点を用いた統一受容重み付き鍵値(URWKV)モデルを提案する。
URWKVブロックのコアをカスタマイズし、複数のステージ内およびステージ間状態を利用して複雑な劣化を認識・解析する。
最先端モデルと比較して、URWKVモデルは様々なベンチマークにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-05-29T04:17:09Z) - RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration [51.77917733024544]
潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を改善した。
LDMは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、スケールスペースの自己回帰を行い、最先端の拡散変換器に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T15:52:26Z) - DPMambaIR: All-in-One Image Restoration via Degradation-Aware Prompt State Space Model [52.44931846016603]
DPMambaIRは新しいオールインワン画像復元フレームワークで、微細な分解抽出器と劣化を意識した状態空間モデルを導入している。
DPMambaIRは、PSNRとSSIMでそれぞれ27.69dBと0.893の最高性能を達成している。
論文 参考訳(メタデータ) (2025-04-24T16:46:32Z) - Effective Cloud Removal for Remote Sensing Images by an Improved Mean-Reverting Denoising Model with Elucidated Design Space [28.320513272478983]
クラウド除去(CR)は、リモートセンシング画像処理において依然として困難な課題である。
我々は,平均回帰拡散モデル(MRDM)に基づく新しいCRモデルEMMDMを開発し,雲と雲の無い画像の直接拡散過程を確立する。
論文 参考訳(メタデータ) (2025-03-31T04:37:18Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。