論文の概要: Degradation-Aware Image Enhancement via Vision-Language Classification
- arxiv url: http://arxiv.org/abs/2506.05450v1
- Date: Thu, 05 Jun 2025 17:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.173517
- Title: Degradation-Aware Image Enhancement via Vision-Language Classification
- Title(参考訳): 視覚言語分類による劣化認識画像の強調
- Authors: Jie Cai, Kangning Yang, Jiaming Ding, Lan Fu, Ling Ouyang, Jiang Li, Jinglin Shen, Zibo Meng,
- Abstract要約: 本稿では,VLM(Vision-Language Model)を用いて,劣化した画像を予め定義されたカテゴリに自動的に分類するフレームワークを提案する。
VLMは入力画像を、(A)超分解分解(ノイズ、ぼかし、JPEG圧縮を含む)、(B)反射加工品、(C)動きぼかし、(D)見えない劣化の4種類に分類する。
分類されると、カテゴリA、B、Cに割り当てられた画像は、特定の劣化タイプごとに調整された専用モデルを使用して、ターゲットの復元を行う。
- 参考スコア(独自算出の注目度): 12.72311942967158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image degradation is a prevalent issue in various real-world applications, affecting visual quality and downstream processing tasks. In this study, we propose a novel framework that employs a Vision-Language Model (VLM) to automatically classify degraded images into predefined categories. The VLM categorizes an input image into one of four degradation types: (A) super-resolution degradation (including noise, blur, and JPEG compression), (B) reflection artifacts, (C) motion blur, or (D) no visible degradation (high-quality image). Once classified, images assigned to categories A, B, or C undergo targeted restoration using dedicated models tailored for each specific degradation type. The final output is a restored image with improved visual quality. Experimental results demonstrate the effectiveness of our approach in accurately classifying image degradations and enhancing image quality through specialized restoration models. Our method presents a scalable and automated solution for real-world image enhancement tasks, leveraging the capabilities of VLMs in conjunction with state-of-the-art restoration techniques.
- Abstract(参考訳): 画像劣化は、様々な現実世界のアプリケーションにおいて大きな問題であり、視覚的品質と下流処理タスクに影響を与える。
本研究では、劣化した画像を予め定義されたカテゴリに自動的に分類するために、視覚言語モデル(VLM)を用いた新しいフレームワークを提案する。
VLMは、入力イメージを、(A)超分解分解(ノイズ、ボケ、JPEG圧縮を含む)、(B)反射加工品、(C)運動ぼけ、(D)可視劣化(高画質画像)の4つのタイプのうちの1つに分類する。
分類されると、カテゴリA、B、Cに割り当てられた画像は、特定の劣化タイプごとに調整された専用モデルを使用して、ターゲットの復元を行う。
最終的な出力は、視覚的品質を改善した復元画像である。
評価実験の結果,画像の劣化を正確に分類し,特殊な復元モデルを用いて画質を向上させる手法の有効性が示された。
提案手法は,VLMの能力と最先端の復元技術を活用することで,実世界の画像強調作業のためのスケーラブルで自動化されたソリューションを提供する。
関連論文リスト
- Dual-Representation Interaction Driven Image Quality Assessment with Restoration Assistance [11.983231834400698]
歪み画像の非参照画像品質評価は、画像内容のばらつきと歪みの多様性のために常に難しい問題である。
以前のIQAモデルは、主に、品質スコア予測のための品質認識表現を得るために、合成画像の明示的な単一品質特徴を符号化していた。
低画質画像の劣化・品質情報を別々にモデル化するDRI法を提案する。
論文 参考訳(メタデータ) (2024-11-26T12:48:47Z) - Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method [7.487270862599671]
本稿では,bfReview Learning という一般画像復元モデルの学習パラダイムを提案する。
このアプローチは、いくつかの劣化したデータセット上のイメージ復元モデルのシーケンシャルなトレーニングと、レビューメカニズムの組み合わせから始まります。
コンシューマグレードのGPU上で4K解像度で画像の劣化を効率的に推論できる軽量な全目的画像復元ネットワークを設計する。
論文 参考訳(メタデータ) (2024-08-13T08:08:45Z) - GAURA: Generalizable Approach for Unified Restoration and Rendering of Arbitrary Views [28.47730275628715]
本稿では,いくつかの劣化条件下で高忠実性新規ビュー合成が可能な一般化可能なニューラルレンダリング手法を提案する。
我々の手法であるGAURAは学習ベースであり、テスト時間シーン固有の最適化を必要としない。
論文 参考訳(メタデータ) (2024-07-11T06:44:37Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。
我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文 参考訳(メタデータ) (2024-04-15T12:34:21Z) - InstructIR: High-Quality Image Restoration Following Human Instructions [61.1546287323136]
本稿では,人間の手書きによる画像復元モデルを導出する手法を提案する。
InstructIRという手法は、いくつかの修復作業において最先端の結果を得る。
論文 参考訳(メタデータ) (2024-01-29T18:53:33Z) - PromptIR: Prompting for All-in-One Blind Image Restoration [64.02374293256001]
我々は、オールインワン画像復元のためのプロンプトIR(PromptIR)を提案する。
本手法では, 劣化特異的情報をエンコードするプロンプトを用いて, 復元ネットワークを動的に案内する。
PromptIRは、軽量なプロンプトがほとんどない汎用的で効率的なプラグインモジュールを提供する。
論文 参考訳(メタデータ) (2023-06-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。