論文の概要: Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift
- arxiv url: http://arxiv.org/abs/2212.08044v2
- Date: Thu, 18 Jan 2024 18:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 21:07:31.201412
- Title: Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift
- Title(参考訳): 分布シフト下におけるマルチモーダル画像テキストモデルのベンチマークロバスト性
- Authors: Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding
Zhao, Bo Li, Mu Li
- Abstract要約: 本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
- 参考スコア(独自算出の注目度): 50.64474103506595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal image-text models have shown remarkable performance in the past
few years. However, evaluating robustness against distribution shifts is
crucial before adopting them in real-world applications. In this work, we
investigate the robustness of 12 popular open-sourced image-text models under
common perturbations on five tasks (image-text retrieval, visual reasoning,
visual entailment, image captioning, and text-to-image generation). In
particular, we propose several new multimodal robustness benchmarks by applying
17 image perturbation and 16 text perturbation techniques on top of existing
datasets. We observe that multimodal models are not robust to image and text
perturbations, especially to image perturbations. Among the tested perturbation
methods, character-level perturbations constitute the most severe distribution
shift for text, and zoom blur is the most severe shift for image data. We also
introduce two new robustness metrics (\textbf{MMI} for MultiModal Impact score
and \textbf{MOR} for Missing Object Rate) for proper evaluations of multimodal
models. We hope our extensive study sheds light on new directions for the
development of robust multimodal models. More details can be found on the
project webpage: \url{https://MMRobustness.github.io}.
- Abstract(参考訳): マルチモーダル画像テキストモデルはここ数年で顕著な性能を示した。
しかし、現実のアプリケーションでそれを採用する前に、分散シフトに対する堅牢性を評価することが重要である。
本研究では,5つのタスク(画像-テキスト検索,視覚推論,視覚関連,画像キャプション,テキスト-画像生成)の共通摂動下で,人気のある12種類の画像テキストモデルのロバスト性について検討する。
特に,既存のデータセット上に17のイメージ摂動と16のテキスト摂動技術を適用し,新しいマルチモーダルロバストネスベンチマークを提案する。
マルチモーダルモデルは,画像やテキストの摂動,特に画像の摂動に対して頑健ではない。
検討した摂動法のうち,文字レベルの摂動はテキストの分布変化の最も重く,ズームボケは画像データに対する最も重度なシフトである。
また、マルチモーダルモデルの適切な評価のための2つの新しいロバストネス指標(マルチモーダルインパクトスコアは\textbf{MMI}、ミスオブジェクトレートは \textbf{MOR})も導入する。
広範な研究により、ロバストなマルチモーダルモデルの開発に向けた新しい方向が明らかになることを願っています。
詳細はプロジェクトのwebページにある。
関連論文リスト
- Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion [3.399289369740637]
本稿では,安定拡散2号の訓練後刈り込みに関する先駆的な研究について述べる。
テキスト・ツー・イメージ領域におけるモデル圧縮に対する重要なニーズに対処する。
本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
論文 参考訳(メタデータ) (2024-11-22T18:29:37Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Multimodal Foundation Models Exploit Text to Make Medical Image Predictions [3.4230952713864373]
我々は、画像やテキストを含む様々なデータモダリティを、マルチモーダル基礎モデルが統合し、優先順位付けするメカニズムを評価する。
以上の結果から,マルチモーダルAIモデルは医学的診断的推論に有用であるが,テキストの活用によって精度が大きく向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-09T18:48:02Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。