論文の概要: UARE: A Unified Vision-Language Model for Image Quality Assessment, Restoration, and Enhancement
- arxiv url: http://arxiv.org/abs/2512.06750v1
- Date: Sun, 07 Dec 2025 09:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.506593
- Title: UARE: A Unified Vision-Language Model for Image Quality Assessment, Restoration, and Enhancement
- Title(参考訳): UARE:画像品質評価・復元・改善のための統合視覚言語モデル
- Authors: Weiqi Li, Xuanyu Zhang, Bin Chen, Jingfen Xie, Yan Wang, Kexin Zhang, Junlin Li, Li Zhang, Jian Zhang, Shijie Zhao,
- Abstract要約: 低レベルの視覚において、画質評価と画像復元が根本的な問題である。
統合マルチモーダル理解世代モデルの最近の進歩は有望な結果を示している。
我々は、画像品質評価、復元、拡張のための最初の統一視覚言語モデルUAREを提案する。
- 参考スコア(独自算出の注目度): 38.531532367484495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image quality assessment (IQA) and image restoration are fundamental problems in low-level vision. Although IQA and restoration are closely connected conceptually, most existing work treats them in isolation. Recent advances in unified multimodal understanding-generation models demonstrate promising results and indicate that stronger understanding can improve generative performance. This motivates a single model that unifies IQA and restoration and explicitly studies how IQA can guide restoration, a setting that remains largely underexplored yet highly valuable. In this paper, we propose UARE, to our knowledge the first Unified vision-language model for image quality Assessment, Restoration, and Enhancement. Built on pretrained unified understanding and generation models, we introduce a two-stage training framework. First, a progressive, easy-to-hard schedule expands from single-type distortions to higher-order mixed degradations, enabling UARE to handle multiple degradations. Second, we perform unified fine-tuning of quality understanding and restoration with interleaved text-image data, aligning IQA signals with restoration objectives. Through multi-task co-training, UARE leverages IQA to boost restoration and enhancement performance. Extensive experiments across IQA, restoration, and enhancement tasks demonstrate the effectiveness of UARE. The code and models will be available at https://github.com/lwq20020127/UARE.
- Abstract(参考訳): 低レベルの視覚において、画像品質評価(IQA)と画像復元が根本的な問題である。
IQAと修復は概念的に密接な関係にあるが、既存のほとんどの研究はそれらを単独で扱う。
統合マルチモーダル理解世代モデルの最近の進歩は、期待できる結果を示し、より強力な理解が生成性能を向上させることを示唆している。
これはIQAと修復を統一する単一のモデルにモチベーションを与え、IQAが修復をいかにガイドできるかを明示的に研究する。
本稿では,画像品質評価,復元,拡張のための最初の統一視覚言語モデルであるUAREを提案する。
事前訓練された統合理解と生成モデルに基づいて、2段階のトレーニングフレームワークを導入する。
第一に、プログレッシブで容易にハードなスケジュールは、単一タイプの歪みから高次の混合劣化へと拡張され、UAREは複数の劣化を処理することができる。
第2に、インターリーブされたテキスト画像データを用いて品質理解と復元の統一的な微調整を行い、IQA信号を復元目的と整合させる。
マルチタスクのコトレーニングを通じて、UAREはIQAを活用して復元と性能を向上させる。
IQA、復元、拡張タスクにわたる大規模な実験は、UAREの有効性を実証している。
コードとモデルはhttps://github.com/lwq20020127/UAREで入手できる。
関連論文リスト
- Extreme Blind Image Restoration via Prompt-Conditioned Information Bottleneck [47.027290803102666]
ブラインド画像復元法(BIR)は目覚ましい成果を上げたが, EBIR(Extreme Blind Image Restoration)に直面するとフェールした。
本稿では,難解なELQ-to-HQ復元プロセスを分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T10:13:27Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [47.207432606050105]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
本稿では,2つのタスクから有用で一般的な表現を抽出するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。