論文の概要: RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text
Matching Models
- arxiv url: http://arxiv.org/abs/2304.10727v1
- Date: Fri, 21 Apr 2023 03:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:57:52.122734
- Title: RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text
Matching Models
- Title(参考訳): RoCOCO: 画像テキストマッチングモデルのストレステストロバスト性に対するロバストベンチマークMS-COCO
- Authors: Seulki Park, Daeho Um, Hajung Yoon, Sanghyuk Chun, Sangdoo Yun and Jin
Young Choi
- Abstract要約: ITMモデルのロバスト性を評価するための新しい評価ベンチマークを提案する。
具体的には、無関係な画像を挿入して画像を変更し、名詞を代用してキャプションを変更する。
新たに作成されたイメージとキャプションをテストセットに追加するだけでパフォーマンスが低下することが分かりました。
- 参考スコア(独自算出の注目度): 24.673928721650622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale vision-language pre-training models and visual semantic
embedding methods have significantly improved image-text matching (ITM)
accuracy on MS COCO 5K test set. However, it is unclear how robust these
state-of-the-art (SOTA) models are when using them in the wild. In this paper,
we propose a novel evaluation benchmark to stress-test the robustness of ITM
models. To this end, we add various fooling images and captions to a retrieval
pool. Specifically, we change images by inserting unrelated images, and change
captions by substituting a noun, which can change the meaning of a sentence. We
discover that just adding these newly created images and captions to the test
set can degrade performances (i.e., Recall@1) of a wide range of SOTA models
(e.g., 81.9% $\rightarrow$ 64.5% in BLIP, 66.1% $\rightarrow$ 37.5% in
VSE$\infty$). We expect that our findings can provide insights for improving
the robustness of the vision-language models and devising more diverse
stress-test methods in cross-modal retrieval task. Source code and dataset will
be available at https://github.com/pseulki/rococo.
- Abstract(参考訳): 近年,MS COCO 5Kテストセットにおける画像テキストマッチング(ITM)の精度が大幅に向上した。
しかし、これらの最先端(SOTA)モデルが野生で使用する場合、どれほど堅牢かは明らかではない。
本稿では,IMMモデルのロバスト性を評価するための新しい評価ベンチマークを提案する。
この目的のために,検索プールに様々な騙し画像とキャプションを追加する。
具体的には、無関係な画像を挿入して画像を変更し、文の意味を変えることができる名詞を代用して字幕を変更する。
これらの新たに作成されたイメージとキャプションをテストセットに追加するだけで、幅広いSOTAモデルのパフォーマンス(例えば、81.9%$\rightarrow$64.5%、66.1%$\rightarrow$37.5%、VSE$\infty$など)を低下させることができる。
我々は,視覚言語モデルのロバスト性向上のための洞察を提供し,クロスモーダル検索タスクにおいてより多様なストレステスト手法を考案できることを期待している。
ソースコードとデータセットはhttps://github.com/pseulki/rococoで入手できる。
関連論文リスト
- A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style
Models on Dense Captions [10.465032036924532]
Densely Captioned Images (DCI)データセットを収集し,マスクによる記述を付加した8012の自然画像を含む。
画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T00:42:23Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Revisiting the Role of Language Priors in Vision-Language Models [96.59023532372842]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - ECCV Caption: Correcting False Negatives by Collecting
Machine-and-Human-verified Image-Caption Associations for MS-COCO [47.61229316655264]
我々は,機械および人体アノテータに欠落した関連情報を供給することによって,拡張COCOバリデーション(ECCV)キャプションデータセットを構築した。
我々のデータセットは、元のMS-COCOと比較して、x3.6の正のイメージ・ツー・キャプション・アソシエーションとx8.5のキャプション・ツー・イメージ・アソシエーションを提供する。
その結果,COCO 1K R@K,COCO 5K R@K,CxC R@1などの既存のベンチマークは相関が強く,ECCV mAP@Rに移行するとランキングが変化することがわかった。
論文 参考訳(メタデータ) (2022-04-07T10:57:12Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。