論文の概要: RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text
Matching Models
- arxiv url: http://arxiv.org/abs/2304.10727v1
- Date: Fri, 21 Apr 2023 03:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:57:52.122734
- Title: RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text
Matching Models
- Title(参考訳): RoCOCO: 画像テキストマッチングモデルのストレステストロバスト性に対するロバストベンチマークMS-COCO
- Authors: Seulki Park, Daeho Um, Hajung Yoon, Sanghyuk Chun, Sangdoo Yun and Jin
Young Choi
- Abstract要約: ITMモデルのロバスト性を評価するための新しい評価ベンチマークを提案する。
具体的には、無関係な画像を挿入して画像を変更し、名詞を代用してキャプションを変更する。
新たに作成されたイメージとキャプションをテストセットに追加するだけでパフォーマンスが低下することが分かりました。
- 参考スコア(独自算出の注目度): 24.673928721650622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale vision-language pre-training models and visual semantic
embedding methods have significantly improved image-text matching (ITM)
accuracy on MS COCO 5K test set. However, it is unclear how robust these
state-of-the-art (SOTA) models are when using them in the wild. In this paper,
we propose a novel evaluation benchmark to stress-test the robustness of ITM
models. To this end, we add various fooling images and captions to a retrieval
pool. Specifically, we change images by inserting unrelated images, and change
captions by substituting a noun, which can change the meaning of a sentence. We
discover that just adding these newly created images and captions to the test
set can degrade performances (i.e., Recall@1) of a wide range of SOTA models
(e.g., 81.9% $\rightarrow$ 64.5% in BLIP, 66.1% $\rightarrow$ 37.5% in
VSE$\infty$). We expect that our findings can provide insights for improving
the robustness of the vision-language models and devising more diverse
stress-test methods in cross-modal retrieval task. Source code and dataset will
be available at https://github.com/pseulki/rococo.
- Abstract(参考訳): 近年,MS COCO 5Kテストセットにおける画像テキストマッチング(ITM)の精度が大幅に向上した。
しかし、これらの最先端(SOTA)モデルが野生で使用する場合、どれほど堅牢かは明らかではない。
本稿では,IMMモデルのロバスト性を評価するための新しい評価ベンチマークを提案する。
この目的のために,検索プールに様々な騙し画像とキャプションを追加する。
具体的には、無関係な画像を挿入して画像を変更し、文の意味を変えることができる名詞を代用して字幕を変更する。
これらの新たに作成されたイメージとキャプションをテストセットに追加するだけで、幅広いSOTAモデルのパフォーマンス(例えば、81.9%$\rightarrow$64.5%、66.1%$\rightarrow$37.5%、VSE$\infty$など)を低下させることができる。
我々は,視覚言語モデルのロバスト性向上のための洞察を提供し,クロスモーダル検索タスクにおいてより多様なストレステスト手法を考案できることを期待している。
ソースコードとデータセットはhttps://github.com/pseulki/rococoで入手できる。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Targeted Image Data Augmentation Increases Basic Skills Captioning
Robustness [0.932065750652415]
TIDA(Targeted Image-editing Data Augmentation)は、モデルの人間的な能力向上を目的としたデータ拡張手法である。
画像キャプションの指標において,性別,色,数量に関連するTIDA強化データセットが,より優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-27T20:12:41Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。