論文の概要: Benchmark Granularity and Model Robustness for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2407.15239v4
- Date: Mon, 09 Jun 2025 14:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:08.734643
- Title: Benchmark Granularity and Model Robustness for Image-Text Retrieval
- Title(参考訳): 画像テキスト検索のためのベンチマーク粒度とモデルロバスト性
- Authors: Mariya Hendriksen, Shuo Zhang, Ridho Reinanda, Mohamed Yahya, Edgar Meij, Maarten de Rijke,
- Abstract要約: データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
- 参考スコア(独自算出の注目度): 44.045767657945895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-Text Retrieval (ITR) systems are central to multimodal information access, with Vision-Language Models (VLMs) showing strong performance on standard benchmarks. However, these benchmarks predominantly rely on coarse-grained annotations, limiting their ability to reveal how models perform under real-world conditions, where query granularity varies. Motivated by this gap, we examine how dataset granularity and query perturbations affect retrieval performance and robustness across four architecturally diverse VLMs (ALIGN, AltCLIP, CLIP, and GroupViT). Using both standard benchmarks (MS-COCO, Flickr30k) and their fine-grained variants, we show that richer captions consistently enhance retrieval, especially in text-to-image tasks, where we observe an average improvement of 16.23%, compared to 6.44% in image-to-text. To assess robustness, we introduce a taxonomy of perturbations and conduct extensive experiments, revealing that while perturbations typically degrade performance, they can also unexpectedly improve retrieval, exposing nuanced model behaviors. Notably, word order emerges as a critical factor -- contradicting prior assumptions of model insensitivity to it. Our results highlight variation in model robustness and a dataset-dependent relationship between caption granularity and perturbation sensitivity and emphasize the necessity of evaluating models on datasets of varying granularity.
- Abstract(参考訳): Image-Text Retrieval (ITR) システムはマルチモーダル情報アクセスの中心であり、Vision-Language Models (VLM) は標準ベンチマークで強い性能を示す。
しかしながら、これらのベンチマークは主に粗い粒度のアノテーションに依存しており、クエリの粒度が変化する現実世界の条件下でモデルがどのように機能するかを明らかにする能力を制限する。
このギャップに触発されて、我々は4つのアーキテクチャ的に多様なVLM(ALIGN, AltCLIP, CLIP, GroupViT)におけるデータセットの粒度とクエリの摂動が、検索性能とロバスト性に与える影響を調べた。
標準的なベンチマーク(MS-COCO, Flickr30k)と粒度の細かいバリエーションの両方を用いて、よりリッチなキャプションは検索を継続的に強化し、特にテキストから画像へのタスクでは、平均16.23%の改善を、画像からテキストへの6.44%と比較した。
頑健性を評価するため,摂動の分類を導入し,広範囲な実験を行った。
特に、単語の順序は重要な要素として現れ、それに対するモデル非感受性の前提に矛盾する。
本結果は, キャプション粒度と摂動感度のデータセット依存的関係とモデル堅牢性の変化を強調し, 粒度の異なるデータセット上でのモデル評価の必要性を強調した。
関連論文リスト
- Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。
完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。
既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文 参考訳(メタデータ) (2025-04-14T08:43:00Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis [1.0972875392165036]
本稿では,FGモデルとCGモデルの両方の評価手法を標準化したtexttFiCo-ITRライブラリを提案する。
両サブフィールドから代表モデルの実証的評価を行い,精度,リコール,計算複雑性を分析した。
この結果から,最近の代表的FGモデルとCGモデル間の性能・効率トレードオフに関する新たな知見が得られ,それぞれの強みと限界が浮き彫りになった。
論文 参考訳(メタデータ) (2024-07-29T15:44:22Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。