論文の概要: X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation
with Visual Large Language Models
- arxiv url: http://arxiv.org/abs/2305.10843v1
- Date: Thu, 18 May 2023 09:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:54:32.550293
- Title: X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation
with Visual Large Language Models
- Title(参考訳): X-IQE:視覚的大言語モデルを用いたテキスト・画像生成のためのeXplainable Image Quality Evaluation
- Authors: Yixiong Chen
- Abstract要約: 本稿では,X-IQEと呼ばれる新しい画像品質評価手法を提案する。
X-IQEは、視覚的大言語モデル(LLM)を使用して、テキストによる説明を生成することによって、テキストから画像への生成方法を評価する。
実際の画像と生成された画像を区別し、テキスト画像のアライメントを評価し、モデルトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel explainable image quality evaluation approach
called X-IQE, which leverages visual large language models (LLMs) to evaluate
text-to-image generation methods by generating textual explanations. X-IQE
utilizes a hierarchical Chain of Thought (CoT) to enable MiniGPT-4 to produce
self-consistent, unbiased texts that are highly correlated with human
evaluation. It offers several advantages, including the ability to distinguish
between real and generated images, evaluate text-image alignment, and assess
image aesthetics without requiring model training or fine-tuning. X-IQE is more
cost-effective and efficient compared to human evaluation, while significantly
enhancing the transparency and explainability of deep image quality evaluation
models. We validate the effectiveness of our method as a benchmark using images
generated by prevalent diffusion models. X-IQE demonstrates similar performance
to state-of-the-art (SOTA) evaluation methods on COCO Caption, while overcoming
the limitations of previous evaluation models on DrawBench, particularly in
handling ambiguous generation prompts and text recognition in generated images.
Project website:
https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models
- Abstract(参考訳): 本稿では,視覚的大言語モデル(LLM)を活用し,テキスト・画像生成手法の評価を行う,X-IQEと呼ばれる新しい画像品質評価手法を提案する。
X-IQEは、Thoughtの階層的連鎖(CoT)を利用して、MiniGPT-4が人間の評価と非常に相関した、一貫性のない、偏見のないテキストを生成する。
実画像と生成された画像の区別、テキストと画像のアライメントの評価、モデルのトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。
x-iqeは人間の評価よりもコスト効率が高く効率が良いが、深部画像の品質評価モデルの透明性と説明性は著しく向上している。
拡散モデルにより生成された画像を用いて,提案手法の有効性を検証する。
X-IQEはCOCOキャプションにおける最先端(SOTA)評価手法に類似した性能を示し、特に生成画像における曖昧な生成プロンプトやテキスト認識を扱うDrawBenchにおける以前の評価モデルの限界を克服する。
プロジェクトwebサイト: https://github.com/schuture/benchmarking-awesome-diffusion-models
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - GenzIQA: Generalized Image Quality Assessment using Prompt-Guided Latent Diffusion Models [7.291687946822539]
最先端のNR-IQA手法の大きな欠点は、様々なIQA設定にまたがる一般化能力に制限があることである。
近年のテキスト・ツー・イメージ生成モデルでは,テキスト概念に関する細部から意味のある視覚概念が生成されている。
本研究では、学習可能な品質対応テキストプロンプトと画像のアライメントの程度を理解することにより、一般化されたIQAに対してそのような拡散モデルのデノベーションプロセスを利用する。
論文 参考訳(メタデータ) (2024-06-07T05:46:39Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models [23.99102775778499]
本稿では,画像品質評価システムIQAGPTを紹介する。
トレーニングと評価のためのCT-IQAデータセットを構築した。
LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。
論文 参考訳(メタデータ) (2023-12-25T09:13:18Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。