論文の概要: Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective
- arxiv url: http://arxiv.org/abs/2407.15239v2
- Date: Thu, 25 Jul 2024 19:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 15:38:30.184063
- Title: Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective
- Title(参考訳): 視覚言語モデルからみた画像テキスト検索ベンチマークの脆さ評価
- Authors: Mariya Hendriksen, Shuo Zhang, Ridho Reinanda, Mohamed Yahya, Edgar Meij, Maarten de Rijke,
- Abstract要約: 我々は, ITR評価パイプラインの脆性に着目し, 概念の粒度に着目した。
粗くきめ細かなデータセット上でのVLMの性能を調べるため,摂動の分類を導入した。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
- 参考スコア(独自算出の注目度): 44.045767657945895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text retrieval (ITR), an important task in information retrieval (IR), is driven by pretrained vision-language models (VLMs) that consistently achieve state-of-the-art performance. However, a significant challenge lies in the brittleness of existing ITR benchmarks. In standard datasets for the task, captions often provide broad summaries of scenes, neglecting detailed information about specific concepts. Additionally, the current evaluation setup assumes simplistic binary matches between images and texts and focuses on intra-modality rather than cross-modal relationships, which can lead to misinterpretations of model performance. Motivated by this gap, in this study, we focus on examining the brittleness of the ITR evaluation pipeline with a focus on concept granularity. We start by analyzing two common benchmarks, MS-COCO and Flickr30k, and compare them with their augmented versions, MS-COCO-FG and Flickr30k-FG, given a specified set of linguistic features capturing concept granularity. We discover that Flickr30k-FG and MS COCO-FG consistently achieve higher scores across all the selected features. To investigate the performance of VLMs on coarse and fine-grained datasets, we introduce a taxonomy of perturbations. We apply these perturbations to the selected datasets. We evaluate four state-of-the-art models - ALIGN, AltCLIP, CLIP, and GroupViT - on the standard and fine-grained datasets under zero-shot conditions, with and without the applied perturbations. The results demonstrate that although perturbations generally degrade model performance, the fine-grained datasets exhibit a smaller performance drop than their standard counterparts. Moreover, the relative performance drop across all setups is consistent across all models and datasets, indicating that the issue lies within the benchmarks. We conclude the paper by providing an agenda for improving ITR evaluation pipelines.
- Abstract(参考訳): 情報検索(IR)における重要なタスクである画像テキスト検索(ITR)は、常に最先端の性能を達成する事前訓練された視覚言語モデル(VLM)によって駆動される。
しかし、重要な課題は既存のIRRベンチマークの脆さにある。
タスクの標準的なデータセットでは、キャプションはしばしばシーンの広範な要約を提供し、特定の概念に関する詳細な情報を無視する。
さらに、現在の評価設定では、画像とテキスト間の単純なバイナリマッチングを前提としており、モダリティーよりもモダリティーに重点を置いており、モデル性能の誤解釈につながる可能性がある。
本研究は, このギャップを動機として, ITR評価パイプラインの脆性に着目し, 概念粒度に着目した検討を行った。
まず、2つの一般的なベンチマークであるMS-COCOとFlickr30kを分析し、概念の粒度をキャプチャする特定の言語的特徴セットを考慮し、それらの拡張版であるMS-COCO-FGとFlickr30k-FGと比較する。
Flickr30k-FG と MS COCO-FG は,選択したすべての機能に対して常に高いスコアを達成していることがわかった。
粗くきめ細かなデータセット上でのVLMの性能を調べるため,摂動の分類を導入した。
選択したデータセットにこれらの摂動を適用する。
我々は,0ショット条件下での標準およびきめ細かいデータセットに対して,適用された摂動を伴わずに,最先端の4つのモデル – ALIGN,AltCLIP,CLIP,GroupViT – を評価する。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
さらに、すべてのセットアップにおける相対的なパフォーマンス低下は、すべてのモデルとデータセット間で一貫しており、問題はベンチマーク内にあることを示している。
我々は、ITR評価パイプラインを改善するためのアジェンダを提供することで、論文を締めくくる。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis [1.0972875392165036]
本稿では,FGモデルとCGモデルの両方の評価手法を標準化したtexttFiCo-ITRライブラリを提案する。
両サブフィールドから代表モデルの実証的評価を行い,精度,リコール,計算複雑性を分析した。
この結果から,最近の代表的FGモデルとCGモデル間の性能・効率トレードオフに関する新たな知見が得られ,それぞれの強みと限界が浮き彫りになった。
論文 参考訳(メタデータ) (2024-07-29T15:44:22Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。