Fugu-MT 論文翻訳(概要): Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)

論文の概要: Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)

arxiv url: http://arxiv.org/abs/2404.04251v3
Date: Thu, 31 Oct 2024 01:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.723074
Title: Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)
Title（参考訳）: 評価を誰が評価するか : T2IScoreScore (TS2) を用いたテキスト・イメージ・プロンプト・コヒーレンス・メトリクスの客観的な評価
Authors: Michael Saxon, Fatima Jahara, Mahsa Khoshnoodi, Yujie Lu, Aditya Sharma, William Yang Wang,
Abstract要約: T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
参考スコア（独自算出の注目度）: 62.44395685571094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With advances in the quality of text-to-image (T2I) models has come interest in benchmarking their prompt faithfulness -- the semantic coherence of generated images to the prompts they were conditioned on. A variety of T2I faithfulness metrics have been proposed, leveraging advances in cross-modal embeddings and vision-language models (VLMs). However, these metrics are not rigorously compared and benchmarked, instead presented with correlation to human Likert scores over a set of easy-to-discriminate images against seemingly weak baselines. We introduce T2IScoreScore, a curated set of semantic error graphs containing a prompt and a set of increasingly erroneous images. These allow us to rigorously judge whether a given prompt faithfulness metric can correctly order images with respect to their objective error count and significantly discriminate between different error nodes, using meta-metric scores derived from established statistical tests. Surprisingly, we find that the state-of-the-art VLM-based metrics (e.g., TIFA, DSG, LLMScore, VIEScore) we tested fail to significantly outperform simple (and supposedly worse) feature-based metrics like CLIPScore, particularly on a hard subset of naturally-occurring T2I model errors. TS2 will enable the development of better T2I prompt faithfulness metrics through more rigorous comparison of their conformity to expected orderings and separations under objective criteria.
Abstract（参考訳）: T2I(text-to-image)モデルの品質向上により、生成したイメージのセマンティックコヒーレンス(semantic coherence)が、条件付きプロンプトに即時忠実さをベンチマークすることに興味を持つようになった。クロスモーダルな埋め込みと視覚言語モデル(VLM)の進歩を活用するため、様々なT2I忠実度指標が提案されている。しかし、これらの指標は厳密な比較やベンチマークではなく、一見弱いベースラインに対して識別しやすい画像のセットに対して、人間のLikertスコアと相関して示される。 T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。これにより、確立された統計的検定から得られたメタメトリックスコアを用いて、与えられた素早い忠実度メトリックが、客観的なエラー数に対して正しく画像を順序付けし、異なるエラーノード間で顕著に識別できるかどうかを厳格に判断することができる。驚いたことに、私たちがテストした最先端のVLMベースのメトリクス(例えば、TIFA、DSG、LLMScore、VIEScore)は、CLIPScoreのような単純な(そして、最悪の)機能ベースのメトリクス、特に自然に発生するT2Iモデルエラーのハードサブセットを著しく上回りません。 TS2は、目標条件下での予測順序と分離との整合性をより厳密に比較することで、より良いT2Iの信頼度指標の開発を可能にする。

関連論文リスト

A Good CREPE needs more than just Sugar: Investigating Biases in Compositional Vision-Language Benchmarks [32.052113371887124]
視覚言語モデルの構成理解能力の測定によく用いられる17のベンチマークについて検討する。我々は、データソースやキュレーション手順を含む設計上の選択について精査する。ブラインドコンストラクションはCLIPモデルと同等に機能し、これらのベンチマークは構成的理解を効果的に測定していないことを示す。
論文参考訳（メタデータ） (2025-06-09T20:53:43Z)
TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。 TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。 T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文参考訳（メタデータ） (2025-06-02T18:44:07Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Multi-Modal Language Models as Text-to-Image Model Evaluators [16.675735328424786]
MT2IE(Multimodal Text-to-Image Eval)は、評価のためのプロンプトを反復的に生成する評価フレームワークである。 MT2IEの即時一貫性スコアは,従来文献に紹介されていたスコアよりも高い相関性を示した。
論文参考訳（メタデータ） (2025-05-01T17:47:55Z)
RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment [51.85242063075333]
フローマッチングフレームワークでトレーニングされたRectified Flow (RF)モデルは、Text-to-Image (T2I)条件生成における最先端のパフォーマンスを達成した。しかし、複数のベンチマークでは、合成画像はプロンプトとの整合性に乏しいことが示されている。 RFMI(Mutual Information (MI) 推定器) を導入し,MI推定に事前学習モデル自体を用いる。
論文参考訳（メタデータ） (2025-03-18T15:41:45Z)
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation [2.273629240935727]
そこで本研究では,画像のコンポーネント分割と,生成した画像に関する詳細な質問をテキストに分割して評価する手法を提案する。提案手法は,テキストから画像への生成モデルの評価において,従来の最先端の指標よりも優れていた。
論文参考訳（メタデータ） (2025-03-14T15:06:12Z)
T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [20.21019748095159]
ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文参考訳（メタデータ） (2025-02-28T01:09:18Z)
A Framework For Image Synthesis Using Supervised Contrastive Learning [14.016543383212706]
テキスト・ツー・イメージ(T2I)生成は、テキスト記述に対応する現実的な画像を作成することを目的としている。本稿では,ラベルガイド付き教師付きコントラスト学習による内部モーダル対応と内部モーダル対応の両面を活用したフレームワークを提案する。我々は、単一オブジェクトデータセットCUBと多オブジェクトデータセットCOCOの2つの新しいT2I GANのフレームワークを実証する。
論文参考訳（メタデータ） (2024-12-05T08:15:37Z)
Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文参考訳（メタデータ） (2024-11-12T09:30:02Z)
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文参考訳（メタデータ） (2024-10-14T08:45:35Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文参考訳（メタデータ） (2024-03-26T15:42:01Z)
AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance [0.562479170374811]
Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
論文参考訳（メタデータ） (2024-01-03T21:24:44Z)
A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文参考訳（メタデータ） (2023-12-04T20:47:48Z)
Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文参考訳（メタデータ） (2023-08-19T05:34:13Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。