論文の概要: AI-Generated Image Quality Assessment Based on Task-Specific Prompt and Multi-Granularity Similarity
- arxiv url: http://arxiv.org/abs/2411.16087v1
- Date: Mon, 25 Nov 2024 04:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:36.864416
- Title: AI-Generated Image Quality Assessment Based on Task-Specific Prompt and Multi-Granularity Similarity
- Title(参考訳): タスク特化プロンプトとマルチグラニュラリティ類似度に基づくAI生成画像品質評価
- Authors: Jili Xia, Lihuo He, Fei Gao, Kaifan Zhang, Leida Li, Xinbo Gao,
- Abstract要約: 本稿では,TSP-MGSというAIGIの品質評価手法を提案する。
タスク固有のプロンプトを設計し、AIGIとプロンプトの多粒度類似度を測定する。
一般的に使用されるAGIQA-1KとAGIQA-3Kベンチマークの実験は、提案されたTSP-MGSの優位性を示している。
- 参考スコア(独自算出の注目度): 62.00987205438436
- License:
- Abstract: Recently, AI-generated images (AIGIs) created by given prompts (initial prompts) have garnered widespread attention. Nevertheless, due to technical nonproficiency, they often suffer from poor perception quality and Text-to-Image misalignment. Therefore, assessing the perception quality and alignment quality of AIGIs is crucial to improving the generative model's performance. Existing assessment methods overly rely on the initial prompts in the task prompt design and use the same prompts to guide both perceptual and alignment quality evaluation, overlooking the distinctions between the two tasks. To address this limitation, we propose a novel quality assessment method for AIGIs named TSP-MGS, which designs task-specific prompts and measures multi-granularity similarity between AIGIs and the prompts. Specifically, task-specific prompts are first constructed to describe perception and alignment quality degrees separately, and the initial prompt is introduced for detailed quality perception. Then, the coarse-grained similarity between AIGIs and task-specific prompts is calculated, which facilitates holistic quality awareness. In addition, to improve the understanding of AIGI details, the fine-grained similarity between the image and the initial prompt is measured. Finally, precise quality prediction is acquired by integrating the multi-granularity similarities. Experiments on the commonly used AGIQA-1K and AGIQA-3K benchmarks demonstrate the superiority of the proposed TSP-MGS.
- Abstract(参考訳): 近年、与えられたプロンプト(初期プロンプト)によって生成されたAI生成画像(AIGI)が広く注目を集めている。
しかし、技術的な非熟練性のため、知覚品質の低下やテキスト・ツー・イメージの誤認識に悩まされることがしばしばある。
したがって、AIGIの知覚品質とアライメント品質を評価することは、生成モデルの性能向上に不可欠である。
既存の評価手法は、タスクプロンプト設計における初期プロンプトを過度に頼り、同じプロンプトを使用して、2つのタスクの区別を見越して知覚的品質評価とアライメント品質評価の両方を導く。
この制限に対処するために,タスク固有のプロンプトを設計し,AIGIとプロンプトの多粒性類似度を測定する,TSP-MGSというAIGIの新たな品質評価手法を提案する。
特に、タスク固有のプロンプトは、まず、知覚とアライメント品質を別々に記述するために構築され、初期プロンプトは、詳細な品質知覚のために導入される。
そして、AIGIとタスク固有のプロンプトとの粗い粒度の類似性を算出し、全体的な品質意識を促進する。
さらに、AIGIの詳細の理解を改善するために、画像と初期プロンプトとの微細な類似度を測定する。
最後に、多粒性類似性を統合することにより、精度の高い品質予測を得る。
一般的に使用されるAGIQA-1KとAGIQA-3Kベンチマークの実験は、提案されたTSP-MGSの優位性を示している。
関連論文リスト
- Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt Condition [4.125007507808684]
本研究では,効果的なAIGC品質評価(QA)フレームワークを提案する。
まず,マルチソースCLIP(Contrastive Language- Image Pre-Training)テキストエンコーダを用いたハイブリッドプロンプト符号化手法を提案する。
第2に,適応したプロンプトと視覚機能を効果的にブレンドするアンサンブルベースの機能ミキサーモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:05:45Z) - Pairwise Comparisons Are All You Need [22.798716660911833]
ブラインド画像品質評価(BIQA)アプローチは、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
本稿では、従来のBIQAの制限を回避すべく設計されたペアワイズ比較フレームワークであるPICNIQを紹介する。
PICNIQは、サイコメトリックスケーリングアルゴリズムを用いることで、対比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画像品質の粒度と解釈可能な指標を提供する。
論文 参考訳(メタデータ) (2024-03-13T23:43:36Z) - Interpretable Image Quality Assessment via CLIP with Multiple
Antonym-Prompt Pairs [1.6317061277457001]
基準画像品質評価(NR-IQA)は、対応する原画像なしで画像の知覚品質を推定するタスクである。
本稿では,事前学習した視覚モデルの能力を生かした新しいゼロショットかつ解釈可能なNRIQA法を提案する。
実験の結果,提案手法は既存のゼロショットNR-IQA法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-08-24T21:37:00Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。