論文の概要: Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.21227v1
- Date: Thu, 25 Sep 2025 14:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.981273
- Title: Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation
- Title(参考訳): 評価指標の評価:合成テキスト・画像生成のためのメトリクス
- Authors: Seyed Amir Kasaei, Ali Aghayari, Arash Marioriyad, Niki Sepasian, MohammadAmin Fazli, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban,
- Abstract要約: 本稿では,コンポジションテキスト画像評価に広く用いられている指標について検討する。
我々の分析は単純な相関を超越し、様々な構成課題にまたがってそれらの振る舞いを調べる。
結果は、1つのメトリクスがタスク間で一貫した実行をしないことを示している。
- 参考スコア(独自算出の注目度): 13.460909458745379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-image generation has advanced rapidly, but assessing whether outputs truly capture the objects, attributes, and relations described in prompts remains a central challenge. Evaluation in this space relies heavily on automated metrics, yet these are often adopted by convention or popularity rather than validated against human judgment. Because evaluation and reported progress in the field depend directly on these metrics, it is critical to understand how well they reflect human preferences. To address this, we present a broad study of widely used metrics for compositional text-image evaluation. Our analysis goes beyond simple correlation, examining their behavior across diverse compositional challenges and comparing how different metric families align with human judgments. The results show that no single metric performs consistently across tasks: performance varies with the type of compositional problem. Notably, VQA-based metrics, though popular, are not uniformly superior, while certain embedding-based metrics prove stronger in specific cases. Image-only metrics, as expected, contribute little to compositional evaluation, as they are designed for perceptual quality rather than alignment. These findings underscore the importance of careful and transparent metric selection, both for trustworthy evaluation and for their use as reward models in generation. Project page is available at \href{https://amirkasaei.com/eval-the-evals/}{this URL}.
- Abstract(参考訳): テキスト画像生成は急速に進歩しているが、プロンプトで記述されたオブジェクト、属性、関係を出力が真に捉えているかどうかを評価することは、依然として中心的な課題である。
この分野での評価は自動メトリクスに大きく依存するが、それらは人間の判断に反して検証されるのではなく、慣例や人気によって採用されることが多い。
フィールドにおける評価と報告の進捗はこれらの指標に直接依存するため、それがいかに人間の好みを反映しているかを理解することが重要である。
そこで本研究では,コンポジションテキスト画像評価に広く用いられている指標について検討する。
我々の分析は単純な相関に留まらず、様々な構成課題にまたがる行動を調べ、異なる計量系が人間の判断とどのように一致しているかを比較する。
結果から,1つの指標が一貫したタスクをこなさないことが明らかとなった。
特に、VQAベースのメトリクスは人気があるが、均一に優れているわけではない。
イメージのみのメトリクスは、予想通り、アライメントではなく知覚品質のために設計されたため、構成的評価にはほとんど寄与しない。
これらの知見は、信頼に値する評価と、世代における報酬モデルとしての使用の両方において、慎重で透明なメートル法選択の重要性を浮き彫りにした。
プロジェクトページは \href{https://amirkasaei.com/eval-the-evals/}{this URL} で公開されている。
関連論文リスト
- Evaluating Text-to-Image and Text-to-Video Synthesis with a Conditional Fréchet Distance [13.599366291595672]
視覚的忠実度とテキスト・プロンプトの整合性を評価する指標であるcFreDを1つのスコアにまとめる。
本研究は, テキスト条件付きモデルの系統評価において, cFreDを頑健で将来性のある指標として評価するものである。
論文 参考訳(メタデータ) (2025-03-27T17:35:14Z) - A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文 参考訳(メタデータ) (2024-04-25T18:12:43Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。