論文の概要: Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2404.15163v1
- Date: Tue, 23 Apr 2024 16:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:22:34.236487
- Title: Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment
- Title(参考訳): ブラインドAIによる画像品質評価のための適応混合スケール特徴融合ネットワーク
- Authors: Tianwei Zhou, Songbai Tan, Wei Zhou, Yu Luo, Yuan-Gen Wang, Guanghui Yue,
- Abstract要約: 本稿では,新しい画像品質評価ネットワークであるAMFF-Netを提案する。
AMFF-Netは画像のスケールアップとスケールダウンを行い、入力としてスケールされた画像とオリジナルサイズの画像を取り込み、マルチスケールの特徴を得る。
我々は3つのAGI品質評価データベースについて広範な実験を行い、実験の結果、AMFF-Netは9つの最先端の盲点IQA法よりも優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 13.998206803073481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing maturity of the text-to-image and image-to-image generative models, AI-generated images (AGIs) have shown great application potential in advertisement, entertainment, education, social media, etc. Although remarkable advancements have been achieved in generative models, very few efforts have been paid to design relevant quality assessment models. In this paper, we propose a novel blind image quality assessment (IQA) network, named AMFF-Net, for AGIs. AMFF-Net evaluates AGI quality from three dimensions, i.e., "visual quality", "authenticity", and "consistency". Specifically, inspired by the characteristics of the human visual system and motivated by the observation that "visual quality" and "authenticity" are characterized by both local and global aspects, AMFF-Net scales the image up and down and takes the scaled images and original-sized image as the inputs to obtain multi-scale features. After that, an Adaptive Feature Fusion (AFF) block is used to adaptively fuse the multi-scale features with learnable weights. In addition, considering the correlation between the image and prompt, AMFF-Net compares the semantic features from text encoder and image encoder to evaluate the text-to-image alignment. We carry out extensive experiments on three AGI quality assessment databases, and the experimental results show that our AMFF-Net obtains better performance than nine state-of-the-art blind IQA methods. The results of ablation experiments further demonstrate the effectiveness of the proposed multi-scale input strategy and AFF block.
- Abstract(参考訳): テキスト・ツー・画像生成モデルの成熟化に伴い、AI生成画像(AGI)は、広告、エンターテイメント、教育、ソーシャルメディアなどにおいて大きな応用可能性を示している。
生成モデルにおいて顕著な進歩が達成されているが、関連する品質評価モデルを設計するための努力はほとんど支払われていない。
本稿では,新しい画像品質評価ネットワークであるAMFF-Netを提案する。
AMFF-Netは、AGIの品質を「視覚的品質」、「美容性」、「一貫性」の3次元から評価する。
具体的には、人間の視覚システムの特徴に触発され、「視覚的品質」と「美容性」は局地的側面とグローバルな側面の両方で特徴付けられるという観察に動機付けられ、AMFF-Netは画像を上下に拡大し、スケールした画像とオリジナルサイズの画像を入力として取り込んでマルチスケールの特徴を得る。
その後、アダプティブ・フィーチャー・フュージョン(AFF)ブロックを使用して、学習可能な重み付きマルチスケール特徴を適応的に融合させる。
さらに、画像とプロンプトの相関を考慮すると、AMFF-Netはテキストエンコーダと画像エンコーダのセマンティック特徴を比較し、テキストと画像のアライメントを評価する。
我々は3つのAGI品質評価データベースについて広範な実験を行い、実験の結果、AMFF-Netは9つの最先端の盲点IQA法よりも優れた性能が得られることが示された。
アブレーション実験の結果はさらに,提案したマルチスケール入力戦略とAFFブロックの有効性を実証した。
関連論文リスト
- Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment [20.851102845794244]
画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である
自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。
SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
論文 参考訳(メタデータ) (2024-06-14T09:18:28Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment [62.8834581626703]
我々はこれまでに最も包括的な主観的品質データベース AGIQA-3K を構築している。
このデータベース上でベンチマーク実験を行い、現在の画像品質評価(IQA)モデルと人間の知覚との整合性を評価する。
我々は、AGIQA-3Kの微粒な主観的スコアが、その後のAGI品質モデルにヒトの主観的知覚機構に適合するよう促すと信じている。
論文 参考訳(メタデータ) (2023-06-07T18:28:21Z) - Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild [38.197794061203055]
教師なし環境で高レベルのコンテンツと低レベルの画像品質特徴を学習するために、2つの異なるエンコーダを訓練するためのMixture of Expertsアプローチを提案する。
本稿では,Re-IQAフレームワークから得られた高次・低次画像表現を,線形回帰モデルをトレーニングするために展開する。
本手法は,大規模画像品質評価データベース上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-02T05:06:51Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Deep Superpixel-based Network for Blind Image Quality Assessment [4.079861933099766]
ブラインド画像品質評価(BIQA)モデルの目標は、人間の目で画像を評価する過程をシミュレートすることである。
マルチスケールおよびスーパーピクセルセグメンテーションに基づいて画像の画質を評価するために, DSN-IQA という深層適応型スーパーピクセルベースネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T08:26:58Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Deep Multi-Scale Features Learning for Distorted Image Quality
Assessment [20.7146855562825]
既存のディープニューラルネットワーク(DNN)はIQA問題に対処する上で大きな効果を示している。
画像品質予測のための階層的マルチスケール特徴を持つDNNを構築するためにピラミッド特徴学習を提案する。
提案するネットワークは、エンド・ツー・エンドの監視方法に最適化されている。
論文 参考訳(メタデータ) (2020-12-01T23:39:01Z) - No-Reference Image Quality Assessment via Feature Fusion and Multi-Task
Learning [29.19484863898778]
ブラインドまたはノン参照画像品質評価(NR-IQA)は基本的な問題であり、未解決であり、難しい問題である。
マルチタスク学習に基づく簡易かつ効果的な汎用的ノンリフレクション(NR)画像品質評価フレームワークを提案する。
このモデルでは、歪み型と主観的な人間のスコアを用いて画質を推定する。
論文 参考訳(メタデータ) (2020-06-06T05:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。