論文の概要: Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2601.04946v2
- Date: Sat, 10 Jan 2026 09:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.561711
- Title: Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics
- Title(参考訳): マルチモーダル評価指標におけるBlindspotsの原型的バイアス
- Authors: Subhadeep Roy, Gagan Bhatia, Steffen Eger,
- Abstract要約: マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
- 参考スコア(独自算出の注目度): 25.374192139098284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic metrics are now central to evaluating text-to-image models, often substituting for human judgment in benchmarking and large-scale filtering. However, it remains unclear whether these metrics truly prioritize semantic correctness or instead favor visually and socially prototypical images learned from biased data distributions. We identify and study prototypicality bias as a systematic failure mode in multimodal evaluation. We introduce a controlled contrastive benchmark ProtoBias (Prototypical Bias), spanning Animals, Objects, and Demography images, where semantically correct but non-prototypical images are paired with subtly incorrect yet prototypical adversarial counterparts. This setup enables a directional evaluation of whether metrics follow textual semantics or default to prototypes. Our results show that widely used metrics, including CLIPScore, PickScore, and VQA-based scores, frequently misrank these pairs, while even LLM-as-Judge systems exhibit uneven robustness in socially grounded cases. Human evaluations consistently favour semantic correctness with larger decision margins. Motivated by these findings, we propose ProtoScore, a robust 7B-parameter metric that substantially reduces failure rates and suppresses misranking, while running at orders of magnitude faster than the inference time of GPT-5, approaching the robustness of much larger closed-source judges.
- Abstract(参考訳): 自動メトリクスはテキスト・ツー・イメージ・モデルの評価の中心となり、しばしばベンチマークや大規模なフィルタリングにおいて人間の判断に取って代わる。
しかし、これらの指標が真に意味的正しさを優先するか、あるいは偏りのあるデータ分布から学習した視覚的および社会的に原始的なイメージを優先するかは定かではない。
我々は,マルチモーダル評価において,原形質バイアスを系統的障害モードとして同定し,研究する。
本稿では, 動物, オブジェクト, デモグラフィを対象とする対照ベンチマークProtoBias(Prototypeal Bias)を提案する。
この設定により、メトリクスがテキストセマンティクスに従うか、あるいはプロトタイプをデフォルトにするかの方向評価が可能になる。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されている指標は,これらのペアを誤用することが多かったが,LLM-as-Judgeシステムでさえ,社会的根拠のあるケースでは不均一な堅牢性を示した。
人間の評価は、より大きな意思決定マージンを持つ意味的正しさを一貫して好んでいる。
これらの結果から, GPT-5の推測時間よりも桁違いに高速に動作しながら, より大規模なクローズドソース判断器の堅牢性にアプローチしながら, 故障率を大幅に低減し, 誤判定を抑える頑健な7BパラメトリックであるProtoScoreを提案する。
関連論文リスト
- Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation [13.460909458745379]
本稿では,コンポジションテキスト画像評価に広く用いられている指標について検討する。
我々の分析は単純な相関を超越し、様々な構成課題にまたがってそれらの振る舞いを調べる。
結果は、1つのメトリクスがタスク間で一貫した実行をしないことを示している。
論文 参考訳(メタデータ) (2025-09-25T14:31:09Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Rethinking FID: Towards a Better Evaluation Metric for Image Generation [43.66036053597747]
Inception Distanceは、実画像のInception-v3特徴分布とアルゴリズムによって生成された画像の距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
よりリッチなCLIP埋め込みとガウスRBFカーネルとの最大平均差距離に基づく代替のCMMDを提案する。
論文 参考訳(メタデータ) (2023-11-30T19:11:01Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。