Fugu-MT 論文翻訳(概要): RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models

論文の概要: RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models

arxiv url: http://arxiv.org/abs/2304.10727v3
Date: Sun, 15 Sep 2024 21:38:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 03:58:31.750515
Title: RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models
Title（参考訳）: RoCOCO:MS-COCOのストレステスト画像テキストマッチングモデルに対するロバスト性ベンチマーク
Authors: Seulki Park, Daeho Um, Hajung Yoon, Sanghyuk Chun, Sangdoo Yun,
Abstract要約: 我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
参考スコア（独自算出の注目度）: 36.19590638188108
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the extensive use of vision-language models in various downstream tasks, evaluating their robustness is crucial. In this paper, we propose a benchmark for assessing the robustness of vision-language models. We believe that a robust model should properly understand both linguistic and visual semantics and be resilient to explicit variations. In pursuit of this goal, we create new variants of texts and images in the MS-COCO test set and re-evaluate the state-of-the-art (SOTA) models with the new data. Specifically, we alter the meaning of text by replacing a word, and generate visually altered images that maintain some visual context while introducing noticeable pixel changes through image mixing techniques.Our evaluations on the proposed benchmark reveal substantial performance degradation in many SOTA models (e.g., Image-to-Text Recall@1: 81.9\% $\rightarrow$ 48.4\% in BLIP, 66.1\% $\rightarrow$ 37.6\% in VSE$\infty$), with the models often favoring the altered texts/images over the original ones. This indicates the current vision-language models struggle with subtle changes and often fail to understand the overall context of texts and images. Based on these findings, we propose semantic contrastive loss and visual contrastive loss to learn more robust embedding. Datasets and code are available at {\url{https://github.com/pseulki/rococo}}.
Abstract（参考訳）: 様々な下流タスクで視覚言語モデルが広く使われているため、その堅牢性を評価することが重要である。本稿では,視覚言語モデルのロバスト性を評価するためのベンチマークを提案する。我々は、ロバストモデルが言語的意味論と視覚的意味論の両方を適切に理解し、明示的なバリエーションに耐性があることを信じている。この目的を追求するため、MS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いてSOTA(State-of-the-art)モデルを再評価する。具体的には、単語を置換してテキストの意味を変更し、画像ミキシング技術を用いて視覚的に変化した画像を生成する。提案したベンチマークでは、多くのSOTAモデル(例えば、画像からテキストへのリコール@1:81.9\% $\rightarrow$ 48.4\%、BLIP 66.1\% $\rightarrow$ 37.6\%、VSE$\infty$)において、大きなパフォーマンス劣化を示す。これは、現在の視覚言語モデルは微妙な変化に悩まされ、しばしばテキストや画像の全体的なコンテキストを理解するのに失敗していることを示している。これらの知見に基づき,より堅牢な埋め込み学習のために,意味的コントラスト損失と視覚的コントラスト損失を提案する。データセットとコードは {\url{https://github.com/pseulki/rococo}}で入手できる。

関連論文リスト

Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文参考訳（メタデータ） (2024-03-07T17:48:48Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation [9.552642210681489]
コーパスを特別な自動キャプションモデルで再現し、再カプセル化データセット上でテキスト・ツー・イメージモデルを訓練することにより、モデルがボード全体に大きなメリットをもたらすことを示す。我々は、コーパスを緩和する様々な方法を分析し、この手法がRECAPと呼ばれ、どちらも列車の干渉の相違を低減し、例ごとにより多くの情報を提供するという証拠を提供する。
論文参考訳（メタデータ） (2023-10-25T14:10:08Z)
Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文参考訳（メタデータ） (2023-10-13T16:53:25Z)
Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness [0.932065750652415]
TIDA(Targeted Image-editing Data Augmentation)は、モデルの人間的な能力向上を目的としたデータ拡張手法である。画像キャプションの指標において,性別,色,数量に関連するTIDA強化データセットが,より優れた性能を示すことを示す。
論文参考訳（メタデータ） (2023-09-27T20:12:41Z)
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文参考訳（メタデータ） (2023-06-15T12:29:42Z)
Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文参考訳（メタデータ） (2023-04-21T09:07:57Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)
Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe) 文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文参考訳（メタデータ） (2022-03-29T19:18:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。