Fugu-MT 論文翻訳(概要): Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment

論文の概要: Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment

arxiv url: http://arxiv.org/abs/2308.08525v1
Date: Wed, 16 Aug 2023 17:26:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 12:26:08.553792
Title: Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment
Title（参考訳）: パッチレベルの知覚と意味的信用割り当てを用いた確率に基づくテキストから画像への評価
Authors: Qi Chen, Chaorui Deng, Zixiong Huang, Bowen Zhang, Mingkui Tan, Qi Wu
Abstract要約: 生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。これらのモデルの生成能力を、数百のサンプルで評価することができる。
参考スコア（独自算出の注目度）: 48.835298314274254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image synthesis has made encouraging progress and attracted lots of public attention recently. However, popular evaluation metrics in this area, like the Inception Score and Fr'echet Inception Distance, incur several issues. First of all, they cannot explicitly assess the perceptual quality of generated images and poorly reflect the semantic alignment of each text-image pair. Also, they are inefficient and need to sample thousands of images to stabilise their evaluation results. In this paper, we propose to evaluate text-to-image generation performance by directly estimating the likelihood of the generated images using a pre-trained likelihood-based text-to-image generative model, i.e., a higher likelihood indicates better perceptual quality and better text-image alignment. To prevent the likelihood of being dominated by the non-crucial part of the generated image, we propose several new designs to develop a credit assignment strategy based on the semantic and perceptual significance of the image patches. In the experiments, we evaluate the proposed metric on multiple popular text-to-image generation models and datasets in accessing both the perceptual quality and the text-image alignment. Moreover, it can successfully assess the generation ability of these models with as few as a hundred samples, making it very efficient in practice.
Abstract（参考訳）: テキストと画像の合成は進歩を奨励し、最近は大衆の注目を集めている。しかし、Inception ScoreやFr'echet Inception Distanceのようなこの分野で人気のある評価指標は、いくつかの問題を引き起こしている。まず、生成された画像の知覚的品質を明示的に評価することができず、各テキストイメージペアのセマンティックアライメントを十分に反映できない。また、効率が悪く、何千もの画像をサンプリングして評価結果を安定させる必要がある。本稿では,事前学習した確率ベーステキストから画像への生成モデルを用いて,生成画像の確率を直接推定することにより,テキストから画像への生成性能を評価することを提案する。生成画像の非致死的部分に支配される可能性を回避するため,画像パッチの意味的および知覚的意義に基づく信用代入戦略を開発するための新しい設計を提案する。実験では、複数の人気テキスト・画像生成モデルとデータセットを用いて、知覚品質とテキスト・画像アライメントの両方にアクセスするためのメトリクスの評価を行った。さらに、数百のサンプルでこれらのモデルの生成能力を評価するのに成功し、実際は非常に効率的である。

関連論文リスト

Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment [63.823383517957986]
テキスト画像アライメントの目的を達成し,達成する新しい評価スコアであるICT(Image-Contained-Text)を提案する。さらに、画像モダリティのみを用いてHPスコアモデル(High-Preference)をトレーニングし、画像美学とディテール品質を向上させる。
論文参考訳（メタデータ） (2025-07-25T07:01:50Z)
Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T02:36:48Z)
Visual question answering based evaluation metrics for text-to-image generation [7.105786967332924]
本稿では,各オブジェクトに対する入力テキストと生成画像のアライメントを評価するための新しい評価指標を提案する。実験結果から,提案手法はより微細なテキスト画像のアライメントと画質を同時に評価できる優れた指標であることがわかった。
論文参考訳（メタデータ） (2024-11-15T13:32:23Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文参考訳（メタデータ） (2024-11-02T07:56:54Z)
A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文参考訳（メタデータ） (2024-08-03T09:27:57Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文参考訳（メタデータ） (2023-07-10T17:54:57Z)
Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文参考訳（メタデータ） (2023-02-23T17:34:53Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。