論文の概要: Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2506.08480v1
- Date: Tue, 10 Jun 2025 06:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.655162
- Title: Re-Thinking the Automatic Evaluation of Image-Text Alignment in Text-to-Image Models
- Title(参考訳): テキスト・ツー・イメージ・モデルにおける画像テキストアライメントの自動評価の再検討
- Authors: Huixuan Zhang, Xiaojun Wan,
- Abstract要約: テキスト・ツー・イメージのモデルは、しばしばテキストのプロンプトと正確に一致する画像を生成するのに苦労する。
既存の評価は主に人間の評価との一致に焦点を当てている。
画像テキストアライメント評価を改善するための推奨事項を提案する。
- 参考スコア(独自算出の注目度): 44.05134959039957
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-image models often struggle to generate images that precisely match textual prompts. Prior research has extensively studied the evaluation of image-text alignment in text-to-image generation. However, existing evaluations primarily focus on agreement with human assessments, neglecting other critical properties of a trustworthy evaluation framework. In this work, we first identify two key aspects that a reliable evaluation should address. We then empirically demonstrate that current mainstream evaluation frameworks fail to fully satisfy these properties across a diverse range of metrics and models. Finally, we propose recommendations for improving image-text alignment evaluation.
- Abstract(参考訳): テキスト・ツー・イメージのモデルは、しばしばテキストのプロンプトと正確に一致する画像を生成するのに苦労する。
テキスト・ツー・イメージ・ジェネレーションにおける画像・テキストアライメントの評価について,これまで広く研究されてきた。
しかし、既存の評価は主に人間による評価との一致に焦点を当てており、信頼できる評価フレームワークの他の重要な特性を無視している。
本研究ではまず,信頼性評価に対処すべき2つの重要な側面を特定する。
続いて私たちは,現在の主流評価フレームワークが,さまざまなメトリクスやモデルに対して,これらの特性を完全に満足できていないことを実証的に示しています。
最後に、画像テキストアライメント評価を改善するための推奨事項を提案する。
関連論文リスト
- GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-09T14:14:02Z) - Visual question answering based evaluation metrics for text-to-image generation [7.105786967332924]
本稿では,各オブジェクトに対する入力テキストと生成画像のアライメントを評価するための新しい評価指標を提案する。
実験結果から,提案手法はより微細なテキスト画像のアライメントと画質を同時に評価できる優れた指標であることがわかった。
論文 参考訳(メタデータ) (2024-11-15T13:32:23Z) - Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文 参考訳(メタデータ) (2024-06-20T18:07:19Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。