論文の概要: GenzIQA: Generalized Image Quality Assessment using Prompt-Guided Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.04654v1
- Date: Fri, 7 Jun 2024 05:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:19:38.533976
- Title: GenzIQA: Generalized Image Quality Assessment using Prompt-Guided Latent Diffusion Models
- Title(参考訳): GenzIQA: Prompt-Guided Latent Diffusion Modelを用いた画像品質評価
- Authors: Diptanu De, Shankhanil Mitra, Rajiv Soundararajan,
- Abstract要約: 最先端のNR-IQA手法の大きな欠点は、様々なIQA設定にまたがる一般化能力に制限があることである。
近年のテキスト・ツー・イメージ生成モデルでは,テキスト概念に関する細部から意味のある視覚概念が生成されている。
本研究では、学習可能な品質対応テキストプロンプトと画像のアライメントの程度を理解することにより、一般化されたIQAに対してそのような拡散モデルのデノベーションプロセスを利用する。
- 参考スコア(独自算出の注目度): 7.291687946822539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design of no-reference (NR) image quality assessment (IQA) algorithms is extremely important to benchmark and calibrate user experiences in modern visual systems. A major drawback of state-of-the-art NR-IQA methods is their limited ability to generalize across diverse IQA settings with reasonable distribution shifts. Recent text-to-image generative models such as latent diffusion models generate meaningful visual concepts with fine details related to text concepts. In this work, we leverage the denoising process of such diffusion models for generalized IQA by understanding the degree of alignment between learnable quality-aware text prompts and images. In particular, we learn cross-attention maps from intermediate layers of the denoiser of latent diffusion models to capture quality-aware representations of images. In addition, we also introduce learnable quality-aware text prompts that enable the cross-attention features to be better quality-aware. Our extensive cross database experiments across various user-generated, synthetic, and low-light content-based benchmarking databases show that latent diffusion models can achieve superior generalization in IQA when compared to other methods in the literature.
- Abstract(参考訳): no-reference (NR) Image Quality Assessment (IQA)アルゴリズムの設計は、現代のビジュアルシステムにおけるユーザエクスペリエンスのベンチマークと校正に極めて重要である。
最先端のNR-IQA手法の大きな欠点は、適切な分布シフトを伴う様々なIQA設定を一般化する能力に制限があることである。
最近のテキスト・ツー・イメージ生成モデルである潜在拡散モデル(英語版)は、テキスト概念に関する詳細で意味のある視覚概念を生成する。
本研究では、学習可能な品質認識テキストプロンプトと画像のアライメントの程度を理解することにより、一般化されたIQAに対してそのような拡散モデルのデノベーションプロセスを利用する。
特に,遅延拡散モデルの中間層から,画像の品質を意識した表現を捉えるために,クロスアテンションマップを学習する。
また、学習可能な品質対応テキストプロンプトを導入し、クロスアテンション機能を品質対応に活用する。
各種ユーザ生成, 合成, 低照度コンテンツベースベンチマークデータベースを対象とした大規模なクロスデータベース実験により, 文献における他の手法と比較して, 潜在拡散モデルの方がIQAのより優れた一般化を達成できることを示した。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - ATTIQA: Generalizable Image Quality Feature Extractor using Attribute-aware Pretraining [25.680035174334886]
no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。
本稿では,高品質な知識を選択的に抽出し,IQAの一般化可能な表現を構築する新しい事前学習フレームワークを提案する。
提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-06-03T06:03:57Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Comparison of No-Reference Image Quality Models via MAP Estimation in
Diffusion Latents [99.19391983670569]
NR-IQAモデルは、画像強調のための最大後部推定(MAP)フレームワークにプラグイン可能であることを示す。
異なるNR-IQAモデルは異なる拡張イメージを誘導し、最終的には精神物理学的なテストを受ける。
これにより, NR-IQAモデルの比較を行う新たな計算手法が提案される。
論文 参考訳(メタデータ) (2024-03-11T03:35:41Z) - Diffusion Model Based Visual Compensation Guidance and Visual Difference
Analysis for No-Reference Image Quality Assessment [82.13830107682232]
本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T09:39:46Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。