論文の概要: Iterative Adversarial Attack on Image-guided Story Ending Generation
- arxiv url: http://arxiv.org/abs/2305.13208v2
- Date: Tue, 23 Jan 2024 08:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 19:41:28.782384
- Title: Iterative Adversarial Attack on Image-guided Story Ending Generation
- Title(参考訳): 画像誘導ストーリーエンドジェネレーションに対する反復的敵攻撃
- Authors: Youze Wang, Wenbo Hu, Richang Hong
- Abstract要約: マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
- 参考スコア(独自算出の注目度): 37.42908817585858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning involves developing models that can integrate information
from various sources like images and texts. In this field, multimodal text
generation is a crucial aspect that involves processing data from multiple
modalities and outputting text. The image-guided story ending generation
(IgSEG) is a particularly significant task, targeting on an understanding of
complex relationships between text and image data with a complete story text
ending. Unfortunately, deep neural networks, which are the backbone of recent
IgSEG models, are vulnerable to adversarial samples. Current adversarial attack
methods mainly focus on single-modality data and do not analyze adversarial
attacks for multimodal text generation tasks that use cross-modal information.
To this end, we propose an iterative adversarial attack method
(Iterative-attack) that fuses image and text modality attacks, allowing for an
attack search for adversarial text and image in an more effective iterative
way. Experimental results demonstrate that the proposed method outperforms
existing single-modal and non-iterative multimodal attack methods, indicating
the potential for improving the adversarial robustness of multimodal text
generation models, such as multimodal machine translation, multimodal question
answering, etc.
- Abstract(参考訳): マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
この分野では、マルチモーダルテキスト生成は、複数のモーダルからのデータ処理とテキスト出力を含む重要な側面である。
画像誘導型ストーリーエンディング生成(IgSEG)は特に重要な課題であり、完全なストーリーエンディングを伴うテキストと画像データの複雑な関係を理解することを目的としている。
残念ながら、最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
現在の敵攻撃法は主に単一モダリティデータに重点を置いており、クロスモーダル情報を用いたマルチモーダルテキスト生成タスクに対する敵攻撃を解析しない。
そこで本稿では,画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
実験の結果,提案手法は既存の単一モーダルおよび非定型マルチモーダル攻撃法よりも優れており,多モーダル機械翻訳や多モーダル質問応答など,多モーダルテキスト生成モデルの逆ロバスト性向上の可能性を示している。
関連論文リスト
- UNIMO-G: Unified Image Generation through Multimodal Conditional
Diffusion [39.397961646315665]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - ZRIGF: An Innovative Multimodal Framework for Zero-Resource
Image-Grounded Dialogue Generation [17.310200022696016]
ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。
テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:28:36Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。