論文の概要: Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift
- arxiv url: http://arxiv.org/abs/2212.08044v3
- Date: Fri, 19 Jan 2024 15:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 13:11:30.140577
- Title: Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift
- Title(参考訳): 分布シフト下におけるマルチモーダル画像テキストモデルのベンチマークロバスト性
- Authors: Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding
Zhao, Bo Li, Mu Li
- Abstract要約: 本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
- 参考スコア(独自算出の注目度): 50.64474103506595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal image-text models have shown remarkable performance in the past
few years. However, evaluating robustness against distribution shifts is
crucial before adopting them in real-world applications. In this work, we
investigate the robustness of 12 popular open-sourced image-text models under
common perturbations on five tasks (image-text retrieval, visual reasoning,
visual entailment, image captioning, and text-to-image generation). In
particular, we propose several new multimodal robustness benchmarks by applying
17 image perturbation and 16 text perturbation techniques on top of existing
datasets. We observe that multimodal models are not robust to image and text
perturbations, especially to image perturbations. Among the tested perturbation
methods, character-level perturbations constitute the most severe distribution
shift for text, and zoom blur is the most severe shift for image data. We also
introduce two new robustness metrics (\textbf{MMI} for MultiModal Impact score
and \textbf{MOR} for Missing Object Rate) for proper evaluations of multimodal
models. We hope our extensive study sheds light on new directions for the
development of robust multimodal models. More details can be found on the
project webpage: \url{https://MMRobustness.github.io}.
- Abstract(参考訳): マルチモーダル画像テキストモデルはここ数年で顕著な性能を示した。
しかし、現実のアプリケーションでそれを採用する前に、分散シフトに対する堅牢性を評価することが重要である。
本研究では,5つのタスク(画像-テキスト検索,視覚推論,視覚関連,画像キャプション,テキスト-画像生成)の共通摂動下で,人気のある12種類の画像テキストモデルのロバスト性について検討する。
特に,既存のデータセット上に17のイメージ摂動と16のテキスト摂動技術を適用し,新しいマルチモーダルロバストネスベンチマークを提案する。
マルチモーダルモデルは,画像やテキストの摂動,特に画像の摂動に対して頑健ではない。
検討した摂動法のうち,文字レベルの摂動はテキストの分布変化の最も重く,ズームボケは画像データに対する最も重度なシフトである。
また、マルチモーダルモデルの適切な評価のための2つの新しいロバストネス指標(マルチモーダルインパクトスコアは\textbf{MMI}、ミスオブジェクトレートは \textbf{MOR})も導入する。
広範な研究により、ロバストなマルチモーダルモデルの開発に向けた新しい方向が明らかになることを願っています。
詳細はプロジェクトのwebページにある。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation [40.42326040668964]
本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。
我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。
実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
論文 参考訳(メタデータ) (2024-12-17T07:41:23Z) - Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion [3.399289369740637]
本稿では,安定拡散2号の訓練後刈り込みに関する先駆的な研究について述べる。
テキスト・ツー・イメージ領域におけるモデル圧縮に対する重要なニーズに対処する。
本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
論文 参考訳(メタデータ) (2024-11-22T18:29:37Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Multimodal Foundation Models Exploit Text to Make Medical Image Predictions [3.4230952713864373]
我々は、画像やテキストを含む様々なデータモダリティを、マルチモーダル基礎モデルが統合し、優先順位付けするメカニズムを評価する。
以上の結果から,マルチモーダルAIモデルは医学的診断的推論に有用であるが,テキストの活用によって精度が大きく向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-09T18:48:02Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。