Fugu-MT 論文翻訳(概要): Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective

論文の概要: Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective

arxiv url: http://arxiv.org/abs/2407.15239v2
Date: Thu, 25 Jul 2024 19:52:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 15:38:30.184063
Title: Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective
Title（参考訳）: 視覚言語モデルからみた画像テキスト検索ベンチマークの脆さ評価
Authors: Mariya Hendriksen, Shuo Zhang, Ridho Reinanda, Mohamed Yahya, Edgar Meij, Maarten de Rijke,
Abstract要約: 我々は, ITR評価パイプラインの脆性に着目し, 概念の粒度に着目した。粗くきめ細かなデータセット上でのVLMの性能を調べるため,摂動の分類を導入した。その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
参考スコア（独自算出の注目度）: 44.045767657945895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-text retrieval (ITR), an important task in information retrieval (IR), is driven by pretrained vision-language models (VLMs) that consistently achieve state-of-the-art performance. However, a significant challenge lies in the brittleness of existing ITR benchmarks. In standard datasets for the task, captions often provide broad summaries of scenes, neglecting detailed information about specific concepts. Additionally, the current evaluation setup assumes simplistic binary matches between images and texts and focuses on intra-modality rather than cross-modal relationships, which can lead to misinterpretations of model performance. Motivated by this gap, in this study, we focus on examining the brittleness of the ITR evaluation pipeline with a focus on concept granularity. We start by analyzing two common benchmarks, MS-COCO and Flickr30k, and compare them with their augmented versions, MS-COCO-FG and Flickr30k-FG, given a specified set of linguistic features capturing concept granularity. We discover that Flickr30k-FG and MS COCO-FG consistently achieve higher scores across all the selected features. To investigate the performance of VLMs on coarse and fine-grained datasets, we introduce a taxonomy of perturbations. We apply these perturbations to the selected datasets. We evaluate four state-of-the-art models - ALIGN, AltCLIP, CLIP, and GroupViT - on the standard and fine-grained datasets under zero-shot conditions, with and without the applied perturbations. The results demonstrate that although perturbations generally degrade model performance, the fine-grained datasets exhibit a smaller performance drop than their standard counterparts. Moreover, the relative performance drop across all setups is consistent across all models and datasets, indicating that the issue lies within the benchmarks. We conclude the paper by providing an agenda for improving ITR evaluation pipelines.
Abstract（参考訳）: 情報検索(IR)における重要なタスクである画像テキスト検索(ITR)は、常に最先端の性能を達成する事前訓練された視覚言語モデル(VLM)によって駆動される。しかし、重要な課題は既存のIRRベンチマークの脆さにある。タスクの標準的なデータセットでは、キャプションはしばしばシーンの広範な要約を提供し、特定の概念に関する詳細な情報を無視する。さらに、現在の評価設定では、画像とテキスト間の単純なバイナリマッチングを前提としており、モダリティーよりもモダリティーに重点を置いており、モデル性能の誤解釈につながる可能性がある。本研究は, このギャップを動機として, ITR評価パイプラインの脆性に着目し, 概念粒度に着目した検討を行った。まず、2つの一般的なベンチマークであるMS-COCOとFlickr30kを分析し、概念の粒度をキャプチャする特定の言語的特徴セットを考慮し、それらの拡張版であるMS-COCO-FGとFlickr30k-FGと比較する。 Flickr30k-FG と MS COCO-FG は,選択したすべての機能に対して常に高いスコアを達成していることがわかった。粗くきめ細かなデータセット上でのVLMの性能を調べるため,摂動の分類を導入した。選択したデータセットにこれらの摂動を適用する。我々は,0ショット条件下での標準およびきめ細かいデータセットに対して,適用された摂動を伴わずに,最先端の4つのモデル – ALIGN,AltCLIP,CLIP,GroupViT – を評価する。その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。さらに、すべてのセットアップにおける相対的なパフォーマンス低下は、すべてのモデルとデータセット間で一貫しており、問題はベンチマーク内にあることを示している。我々は、ITR評価パイプラインを改善するためのアジェンダを提供することで、論文を締めくくる。

関連論文リスト

Towards Robust Semantic Correspondence: A Benchmark and Insights [0.0]
有害な条件下での意味的対応を評価するための新しいベンチマークを構築した。ベンチマークデータセットは、一般的に遭遇する撮像問題を反映した14の異なる挑戦的なシナリオで構成されている。セマンティック・コンパレンス・アプローチの堅牢性に関するいくつかの重要な洞察を提供する。
論文参考訳（メタデータ） (2025-08-01T02:38:39Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [38.09248570129455]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文参考訳（メタデータ） (2025-06-09T05:30:35Z)
Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文参考訳（メタデータ） (2025-04-14T08:43:00Z)
Mixed Signals: Decoding VLMs' Reasoning and Underlying Bias in Vision-Language Conflict [3.9495397165148023]
本稿では,視覚言語モデル(VLM)が画像とテキストの相反するシナリオに直面する場合の理由を示す。我々の分析では、VLMはより単純なクエリでテキストを好むが、クエリの複雑さが増大するにつれて画像にシフトする。さらに、簡単なプロンプト修正、矛盾する情報を扱うためのモデルを明確に指示する修正という3つの緩和戦略についても検討する。
論文参考訳（メタデータ） (2025-04-11T20:56:52Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。 HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文参考訳（メタデータ） (2024-12-07T15:47:49Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis [1.0972875392165036]
本稿では,FGモデルとCGモデルの両方の評価手法を標準化したtexttFiCo-ITRライブラリを提案する。両サブフィールドから代表モデルの実証的評価を行い,精度,リコール,計算複雑性を分析した。この結果から,最近の代表的FGモデルとCGモデル間の性能・効率トレードオフに関する新たな知見が得られ,それぞれの強みと限界が浮き彫りになった。
論文参考訳（メタデータ） (2024-07-29T15:44:22Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。 2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。 VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文参考訳（メタデータ） (2023-06-15T16:59:42Z)
Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文参考訳（メタデータ） (2023-04-21T09:07:57Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
A Systematic Investigation of Commonsense Understanding in Large Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文参考訳（メタデータ） (2021-10-31T22:20:36Z)
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。 Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文参考訳（メタデータ） (2021-04-17T23:29:55Z)
Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか? 人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文参考訳（メタデータ） (2020-10-07T20:45:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。