論文の概要: RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models
- arxiv url: http://arxiv.org/abs/2304.10727v3
- Date: Sun, 15 Sep 2024 21:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:58:31.750515
- Title: RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models
- Title(参考訳): RoCOCO:MS-COCOのストレステスト画像テキストマッチングモデルに対するロバスト性ベンチマーク
- Authors: Seulki Park, Daeho Um, Hajung Yoon, Sanghyuk Chun, Sangdoo Yun,
- Abstract要約: 我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
- 参考スコア(独自算出の注目度): 36.19590638188108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the extensive use of vision-language models in various downstream tasks, evaluating their robustness is crucial. In this paper, we propose a benchmark for assessing the robustness of vision-language models. We believe that a robust model should properly understand both linguistic and visual semantics and be resilient to explicit variations. In pursuit of this goal, we create new variants of texts and images in the MS-COCO test set and re-evaluate the state-of-the-art (SOTA) models with the new data. Specifically, we alter the meaning of text by replacing a word, and generate visually altered images that maintain some visual context while introducing noticeable pixel changes through image mixing techniques.Our evaluations on the proposed benchmark reveal substantial performance degradation in many SOTA models (e.g., Image-to-Text Recall@1: 81.9\% $\rightarrow$ 48.4\% in BLIP, 66.1\% $\rightarrow$ 37.6\% in VSE$\infty$), with the models often favoring the altered texts/images over the original ones. This indicates the current vision-language models struggle with subtle changes and often fail to understand the overall context of texts and images. Based on these findings, we propose semantic contrastive loss and visual contrastive loss to learn more robust embedding. Datasets and code are available at {\url{https://github.com/pseulki/rococo}}.
- Abstract(参考訳): 様々な下流タスクで視覚言語モデルが広く使われているため、その堅牢性を評価することが重要である。
本稿では,視覚言語モデルのロバスト性を評価するためのベンチマークを提案する。
我々は、ロバストモデルが言語的意味論と視覚的意味論の両方を適切に理解し、明示的なバリエーションに耐性があることを信じている。
この目的を追求するため、MS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いてSOTA(State-of-the-art)モデルを再評価する。
具体的には、単語を置換してテキストの意味を変更し、画像ミキシング技術を用いて視覚的に変化した画像を生成する。提案したベンチマークでは、多くのSOTAモデル(例えば、画像からテキストへのリコール@1:81.9\% $\rightarrow$ 48.4\%、BLIP 66.1\% $\rightarrow$ 37.6\%、VSE$\infty$)において、大きなパフォーマンス劣化を示す。
これは、現在の視覚言語モデルは微妙な変化に悩まされ、しばしばテキストや画像の全体的なコンテキストを理解するのに失敗していることを示している。
これらの知見に基づき,より堅牢な埋め込み学習のために,意味的コントラスト損失と視覚的コントラスト損失を提案する。
データセットとコードは {\url{https://github.com/pseulki/rococo}}で入手できる。
関連論文リスト
- A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions [9.87625120950535]
我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。
画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T00:42:23Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - ECCV Caption: Correcting False Negatives by Collecting
Machine-and-Human-verified Image-Caption Associations for MS-COCO [47.61229316655264]
我々は,機械および人体アノテータに欠落した関連情報を供給することによって,拡張COCOバリデーション(ECCV)キャプションデータセットを構築した。
我々のデータセットは、元のMS-COCOと比較して、x3.6の正のイメージ・ツー・キャプション・アソシエーションとx8.5のキャプション・ツー・イメージ・アソシエーションを提供する。
その結果,COCO 1K R@K,COCO 5K R@K,CxC R@1などの既存のベンチマークは相関が強く,ECCV mAP@Rに移行するとランキングが変化することがわかった。
論文 参考訳(メタデータ) (2022-04-07T10:57:12Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。