論文の概要: SugarCrepe: Fixing Hackable Benchmarks for Vision-Language
Compositionality
- arxiv url: http://arxiv.org/abs/2306.14610v1
- Date: Mon, 26 Jun 2023 11:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:57:25.261394
- Title: SugarCrepe: Fixing Hackable Benchmarks for Vision-Language
Compositionality
- Title(参考訳): sugarcrepe: 視覚言語構成性のためのハック可能なベンチマークの修正
- Authors: Cheng-Yu Hsieh, Jieyu Zhang, Zixian Ma, Aniruddha Kembhavi, Ranjay
Krishna
- Abstract要約: 視覚言語構成性評価のための新しいベンチマークであるSugarCrepeを紹介する。
ルールベースのテンプレートではなく、大きな言語モデルを使用して、流動的でセンセーショナルなハードネガティブを生成します。
我々は、最先端モデルを再評価し、最近、構成性誘導戦略を提案し、それらの改善が過大評価されていることを発見した。
- 参考スコア(独自算出の注目度): 26.61030477161824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last year alone, a surge of new benchmarks to measure compositional
understanding of vision-language models have permeated the machine learning
ecosystem. Given an image, these benchmarks probe a model's ability to identify
its associated caption amongst a set of compositional distractors.
Surprisingly, we find significant biases in all these benchmarks rendering them
hackable. This hackability is so dire that blind models with no access to the
image outperform state-of-the-art vision-language models. To remedy this
rampant vulnerability, we introduce SugarCrepe, a new benchmark for
vision-language compositionality evaluation. We employ large language models,
instead of rule-based templates used in previous benchmarks, to generate fluent
and sensical hard negatives, and utilize an adversarial refinement mechanism to
maximally reduce biases. We re-evaluate state-of-the-art models and recently
proposed compositionality inducing strategies, and find that their improvements
were hugely overestimated, suggesting that more innovation is needed in this
important direction. We release SugarCrepe and the code for evaluation at:
https://github.com/RAIVNLab/sugar-crepe.
- Abstract(参考訳): 昨年だけで、視覚言語モデルの構成的理解を測定するための新しいベンチマークが、機械学習エコシステムに浸透した。
画像が与えられた場合、これらのベンチマークはモデルが関連するキャプションを合成障害の集合の中で識別する能力を探索する。
意外なことに、これらのベンチマークには大きなバイアスがある。
このハッキング性は非常にひどいため、視覚障害者モデルは最先端の視覚言語モデルに勝る画像にアクセスできない。
この脆弱性に対処するために,視覚言語合成性評価のための新しいベンチマークであるsugarcrepeを紹介する。
従来のベンチマークで使用されるルールベースのテンプレートではなく,大規模な言語モデルを採用して,フルーエントでセンテカルなハードネガティブを生成し,バイアスを最大に低減するための逆リファインメント機構を活用しています。
我々は最先端のモデルと最近提案された構成性誘導戦略を再評価し、その改善が過大評価されていることを見出し、この重要な方向へのさらなるイノベーションが必要であることを示唆する。
SugarCrepe と https://github.com/RAIVNLab/sugar-crepe.com で評価のためのコードをリリースします。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - CLoVe: Encoding Compositional Language in Contrastive Vision-Language
Models [33.80107512462935]
VLM(Foundational Vision-Language Models)は、オブジェクト中心認識において優れているが、単語順に不変と思われるテキスト表現を学習する。
GPT-4Vのような大規模単一ストリームモデルを含む任意のVLMが、組成を正常に識別する証拠は存在しない。
本稿では,既存のモデルが構成言語をエンコードする能力を大幅に向上するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:42:25Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [36.19590638188108]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Estimating the Robustness of Classification Models by the Structure of
the Learned Feature-Space [10.418647759223964]
固定テストセットは、可能なデータバリエーションのごく一部しかキャプチャできないため、制限され、新しい過度なソリューションを生成する傾向にある、と私たちは主張する。
これらの欠点を克服するために、学習した特徴空間の構造から直接モデルのロバスト性を推定することを提案する。
論文 参考訳(メタデータ) (2021-06-23T10:52:29Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。