論文の概要: Diffusion Model Based Visual Compensation Guidance and Visual Difference
Analysis for No-Reference Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2402.14401v1
- Date: Thu, 22 Feb 2024 09:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:41:52.851681
- Title: Diffusion Model Based Visual Compensation Guidance and Visual Difference
Analysis for No-Reference Image Quality Assessment
- Title(参考訳): 非参照画像品質評価のための拡散モデルに基づく視覚補償指導と視覚差解析
- Authors: Zhaoyang Wang, Bo Hu, Mingyang Zhang, Jie Li, Leida Li, Maoguo Gong,
Xinbo Gao
- Abstract要約: 本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
- 参考スコア(独自算出の注目度): 82.13830107682232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing free-energy guided No-Reference Image Quality Assessment (NR-IQA)
methods still suffer from finding a balance between learning feature
information at the pixel level of the image and capturing high-level feature
information and the efficient utilization of the obtained high-level feature
information remains a challenge. As a novel class of state-of-the-art (SOTA)
generative model, the diffusion model exhibits the capability to model
intricate relationships, enabling a comprehensive understanding of images and
possessing a better learning of both high-level and low-level visual features.
In view of these, we pioneer the exploration of the diffusion model into the
domain of NR-IQA. Firstly, we devise a new diffusion restoration network that
leverages the produced enhanced image and noise-containing images,
incorporating nonlinear features obtained during the denoising process of the
diffusion model, as high-level visual information. Secondly, two visual
evaluation branches are designed to comprehensively analyze the obtained
high-level feature information. These include the visual compensation guidance
branch, grounded in the transformer architecture and noise embedding strategy,
and the visual difference analysis branch, built on the ResNet architecture and
the residual transposed attention block. Extensive experiments are conducted on
seven public NR-IQA datasets, and the results demonstrate that the proposed
model outperforms SOTA methods for NR-IQA.
- Abstract(参考訳): 既存の非参照画像品質評価法(NR-IQA)では、画像のピクセルレベルでの学習特徴情報と高レベルの特徴情報の取得と、得られた高レベルの特徴情報の効率的な利用とのバランスが依然として困難である。
最先端(sota)生成モデルの新しいクラスとして、拡散モデルは複雑な関係をモデル化する能力を示し、画像の包括的理解を可能にし、高レベルおよび低レベルの視覚特徴の両方をよりよく学習する。
これらの観点から、NR-IQA領域への拡散モデルの探索を開拓した。
まず, 生成した拡張画像とノイズを含む画像を利用して, 拡散モデルの発声過程中に得られた非線形特徴を高レベルな視覚情報として組み込む新しい拡散復元ネットワークを考案する。
次に、得られた高次特徴情報を包括的に分析する2つの視覚評価枝を設計する。
その中には、トランスフォーマーアーキテクチャとノイズ埋め込み戦略を基盤とした視覚補償ガイダンスブランチや、ResNetアーキテクチャと残留したアテンションブロック上に構築された視覚差分解析ブランチが含まれる。
7つの公開NR-IQAデータセットに対して大規模な実験を行い、提案モデルがNR-IQAのSOTA法より優れていることを示した。
関連論文リスト
- GenzIQA: Generalized Image Quality Assessment using Prompt-Guided Latent Diffusion Models [7.291687946822539]
最先端のNR-IQA手法の大きな欠点は、様々なIQA設定にまたがる一般化能力に制限があることである。
近年のテキスト・ツー・イメージ生成モデルでは,テキスト概念に関する細部から意味のある視覚概念が生成されている。
本研究では、学習可能な品質対応テキストプロンプトと画像のアライメントの程度を理解することにより、一般化されたIQAに対してそのような拡散モデルのデノベーションプロセスを利用する。
論文 参考訳(メタデータ) (2024-06-07T05:46:39Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Comparison of No-Reference Image Quality Models via MAP Estimation in
Diffusion Latents [99.19391983670569]
NR-IQAモデルは、画像強調のための最大後部推定(MAP)フレームワークにプラグイン可能であることを示す。
異なるNR-IQAモデルは異なる拡張イメージを誘導し、最終的には精神物理学的なテストを受ける。
これにより, NR-IQAモデルの比較を行う新たな計算手法が提案される。
論文 参考訳(メタデータ) (2024-03-11T03:35:41Z) - Transformer-based No-Reference Image Quality Assessment via Supervised
Contrastive Learning [36.695247860715874]
本稿では,新しいコントラスト学習 (Contrastive Learning, SCL) と NR-IQA モデル SaTQA を提案する。
まず、SCLによる大規模合成データセット上にモデルをトレーニングし、様々な歪みタイプとレベルの画像の劣化特徴を抽出する。
画像から歪み情報を抽出するために,CNNインダクティブバイアスとTransformerの長期依存性モデリング機能を組み合わせることで,マルチストリームブロック(MSB)を組み込んだバックボーンネットワークを提案する。
7つの標準IQAデータセットの実験結果から、SaTQAは合成データセットと認証データセットの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T06:01:41Z) - Feedback RoI Features Improve Aerial Object Detection [9.554951222327443]
神経科学研究は、人間の視覚系が低レベルの知覚を導くために高レベルのフィードバック情報を利用することを示した。
本稿では、オブジェクト検出に類似したメカニズムを組み込むために、フィードバックマルチレベル機能エクストラクタ(Flex)を提案する。
Flexは、画像品質の変化と分類の不確実性に応じて、画像ワイドおよびインスタンスレベルのフィードバック情報に基づいて特徴選択を洗練する。
論文 参考訳(メタデータ) (2023-11-28T16:09:09Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - LLDiffusion: Learning Degradation Representations in Diffusion Models
for Low-Light Image Enhancement [118.83316133601319]
現在の低照度画像強調(LLIE)の深層学習法は、通常、ペア化されたデータから学んだピクセルワイドマッピングに依存している。
本稿では,拡散モデルを用いたLLIEの劣化認識学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T07:22:51Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - High-Frequency aware Perceptual Image Enhancement [0.08460698440162888]
マルチスケール解析に適した新しいディープニューラルネットワークを導入し,効率的なモデルに依存しない手法を提案する。
本モデルは,デノイング,デブロアリング,単一画像超解像などのマルチスケール画像強調問題に適用できる。
論文 参考訳(メタデータ) (2021-05-25T07:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。