Fugu-MT 論文翻訳(概要): Visual question answering based evaluation metrics for text-to-image generation

論文の概要: Visual question answering based evaluation metrics for text-to-image generation

arxiv url: http://arxiv.org/abs/2411.10183v1
Date: Fri, 15 Nov 2024 13:32:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.056697
Title: Visual question answering based evaluation metrics for text-to-image generation
Title（参考訳）: テキスト・画像生成のための視覚的質問応答に基づく評価指標
Authors: Mizuki Miyamoto, Ryugo Morita, Jinjia Zhou,
Abstract要約: 本稿では,各オブジェクトに対する入力テキストと生成画像のアライメントを評価するための新しい評価指標を提案する。実験結果から,提案手法はより微細なテキスト画像のアライメントと画質を同時に評価できる優れた指標であることがわかった。
参考スコア（独自算出の注目度）: 7.105786967332924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image generation and text-guided image manipulation have received considerable attention in the field of image generation tasks. However, the mainstream evaluation methods for these tasks have difficulty in evaluating whether all the information from the input text is accurately reflected in the generated images, and they mainly focus on evaluating the overall alignment between the input text and the generated images. This paper proposes new evaluation metrics that assess the alignment between input text and generated images for every individual object. Firstly, according to the input text, chatGPT is utilized to produce questions for the generated images. After that, we use Visual Question Answering(VQA) to measure the relevance of the generated images to the input text, which allows for a more detailed evaluation of the alignment compared to existing methods. In addition, we use Non-Reference Image Quality Assessment(NR-IQA) to evaluate not only the text-image alignment but also the quality of the generated images. Experimental results show that our proposed evaluation approach is the superior metric that can simultaneously assess finer text-image alignment and image quality while allowing for the adjustment of these ratios.
Abstract（参考訳）: 画像生成の分野では,テキスト・ツー・イメージ生成とテキスト誘導画像操作が注目されている。しかし、これらのタスクの主流評価手法は、入力テキストからの全ての情報が生成画像に正確に反映されているかどうかを評価するのが困難であり、主に入力テキストと生成された画像の全体的なアライメントを評価することに重点を置いている。本稿では,各オブジェクトに対する入力テキストと生成画像のアライメントを評価するための新しい評価指標を提案する。まず、入力テキストによれば、チャットGPTを使用して生成された画像に対する質問を生成する。その後、VQA(Visual Question Answering)を用いて、生成した画像と入力テキストとの関係を計測し、既存の手法と比較してより詳細なアライメントの評価を可能にする。さらに、非参照画像品質評価(NR-IQA)を用いて、テキスト画像のアライメントだけでなく、生成された画像の品質も評価する。実験結果から,提案手法は高精細なテキスト画像のアライメントと画質を同時に評価できる上で,これらの比率を調整できる優れた指標であることが示唆された。

関連論文リスト

Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models [44.05134959039957]
テキスト・ツー・イメージのモデルは、しばしばテキストのプロンプトと正確に一致する画像を生成するのに苦労する。既存の評価は主に人間の評価との一致に焦点を当てている。画像テキストアライメント評価を改善するための推奨事項を提案する。
論文参考訳（メタデータ） (2025-06-10T06:11:36Z)
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文参考訳（メタデータ） (2025-05-16T17:55:54Z)
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation [27.336251972097077]
RefVNLIは、テキストアライメントと主題保存の両方を単一の予測で評価する費用効率の指標である。既存のベースラインを複数のベンチマークや対象カテゴリで上回るか、あるいは一致させる。また、あまり知られていない概念に優れ、人間の好みと87%以上の精度で一致している。
論文参考訳（メタデータ） (2025-04-24T12:44:51Z)
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation [2.273629240935727]
そこで本研究では,画像のコンポーネント分割と,生成した画像に関する詳細な質問をテキストに分割して評価する手法を提案する。提案手法は,テキストから画像への生成モデルの評価において,従来の最先端の指標よりも優れていた。
論文参考訳（メタデータ） (2025-03-14T15:06:12Z)
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文参考訳（メタデータ） (2025-03-09T14:14:02Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文参考訳（メタデータ） (2024-08-03T09:27:57Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
A Survey on Quality Metrics for Text-to-Image Generation [9.753473063305503]
AIベースのテキスト・ツー・イメージモデルは、現実的な画像の生成に優れるだけでなく、デザイナーが画像の内容をより細かく制御できるようになっている。これらのアプローチはコンピュータグラフィックス研究コミュニティ内で注目を集めている。本稿では,このようなテキスト・ツー・イメージの品質指標の概要を概観し,これらの指標を分類するための分類法を提案する。
論文参考訳（メタデータ） (2024-03-18T14:24:20Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文参考訳（メタデータ） (2023-08-16T17:26:47Z)
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文参考訳（メタデータ） (2023-07-10T17:54:57Z)
What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文参考訳（メタデータ） (2023-05-17T17:43:38Z)
InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文参考訳（メタデータ） (2023-05-10T09:22:44Z)
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文参考訳（メタデータ） (2023-03-21T14:41:02Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。