論文の概要: A Good CREPE needs more than just Sugar: Investigating Biases in Compositional Vision-Language Benchmarks
- arxiv url: http://arxiv.org/abs/2506.08227v1
- Date: Mon, 09 Jun 2025 20:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.757291
- Title: A Good CREPE needs more than just Sugar: Investigating Biases in Compositional Vision-Language Benchmarks
- Title(参考訳): 優れたCREPEは、単にシュガー以上のものを必要としている: 構成的ビジョンランゲージベンチマークにおけるバイアスの調査
- Authors: Vishaal Udandarao, Mehdi Cherti, Shyamgopal Karthik, Jenia Jitsev, Samuel Albanie, Matthias Bethge,
- Abstract要約: 視覚言語モデルの構成理解能力の測定によく用いられる17のベンチマークについて検討する。
我々は、データソースやキュレーション手順を含む設計上の選択について精査する。
ブラインドコンストラクションはCLIPモデルと同等に機能し、これらのベンチマークは構成的理解を効果的に測定していないことを示す。
- 参考スコア(独自算出の注目度): 32.052113371887124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate 17 benchmarks (e.g. SugarCREPE, VALSE) commonly used for measuring compositional understanding capabilities of vision-language models (VLMs). We scrutinize design choices in their construction, including data source (e.g. MS-COCO) and curation procedures (e.g. constructing negative images/captions), uncovering several inherent biases across most benchmarks. We find that blind heuristics (e.g. token-length, log-likelihood under a language model) perform on par with CLIP models, indicating that these benchmarks do not effectively measure compositional understanding. We demonstrate that the underlying factor is a distribution asymmetry between positive and negative images/captions, induced by the benchmark construction procedures. To mitigate these issues, we provide a few key recommendations for constructing more robust vision-language compositional understanding benchmarks, that would be less prone to such simple attacks.
- Abstract(参考訳): 視覚言語モデル(VLM)の構成理解能力の測定によく用いられる17のベンチマーク(例えばSugarCREPE, VALSE)について検討する。
データソース(例:MS-COCO)やキュレーション手順(例:負の画像/キャプション)など、設計上の選択を精査し、ほとんどのベンチマークに固有のバイアスを明らかにします。
視覚的ヒューリスティック(例えば、トークン長、言語モデルの下でログライクな)は、CLIPモデルと同等に動作し、これらのベンチマークが構成的理解を効果的に測定していないことを示す。
提案手法は, 正と負のイメージ/キャプション間の分布非対称性であることを示す。
これらの問題を緩和するために、より堅牢な視覚言語構成理解ベンチマークを構築するための重要な推奨事項をいくつか提示する。
関連論文リスト
- Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - SugarCrepe: Fixing Hackable Benchmarks for Vision-Language
Compositionality [26.61030477161824]
視覚言語構成性評価のための新しいベンチマークであるSugarCrepeを紹介する。
ルールベースのテンプレートではなく、大きな言語モデルを使用して、流動的でセンセーショナルなハードネガティブを生成します。
我々は、最先端モデルを再評価し、最近、構成性誘導戦略を提案し、それらの改善が過大評価されていることを発見した。
論文 参考訳(メタデータ) (2023-06-26T11:35:22Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。