論文の概要: I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models
- arxiv url: http://arxiv.org/abs/2306.07591v1
- Date: Tue, 13 Jun 2023 07:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:39:20.136256
- Title: I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models
- Title(参考訳): 死人:画像とテキストのモデルに対するグレイボックスの敵攻撃
- Authors: Raz Lapid, Moshe Sipper
- Abstract要約: 我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern image-to-text systems typically adopt the encoder-decoder framework,
which comprises two main components: an image encoder, responsible for
extracting image features, and a transformer-based decoder, used for generating
captions. Taking inspiration from the analysis of neural networks' robustness
against adversarial perturbations, we propose a novel gray-box algorithm for
creating adversarial examples in image-to-text models. Unlike image
classification tasks that have a finite set of class labels, finding visually
similar adversarial examples in an image-to-text task poses greater challenges
because the captioning system allows for a virtually infinite space of possible
captions. In this paper, we present a gray-box adversarial attack on
image-to-text, both untargeted and targeted. We formulate the process of
discovering adversarial perturbations as an optimization problem that uses only
the image-encoder component, meaning the proposed attack is language-model
agnostic. Through experiments conducted on the ViT-GPT2 model, which is the
most-used image-to-text model in Hugging Face, and the Flickr30k dataset, we
demonstrate that our proposed attack successfully generates visually similar
adversarial examples, both with untargeted and targeted captions. Notably, our
attack operates in a gray-box manner, requiring no knowledge about the decoder
module. We also show that our attacks fool the popular open-source platform
Hugging Face.
- Abstract(参考訳): 現代の画像からテキストへのシステムは、画像の特徴を抽出するための画像エンコーダと、キャプションを生成するのに使われるトランスフォーマベースのデコーダという2つの主要なコンポーネントからなるエンコーダ-デコーダフレームワークを採用するのが一般的である。
ニューラルネットワークの逆摂動に対するロバスト性の分析から着想を得て,画像からテキストへのモデルの逆例を作成するための新しいグレイボックスアルゴリズムを提案する。
クラスラベルの有限集合を持つ画像分類タスクとは異なり、画像からテキストへのタスクで視覚的に類似した逆の例を見つけることは、キャプションシステムによって事実上無限のキャプションの空間を可能にするため、大きな課題となる。
本稿では,非ターゲティングとターゲティングの両方において,画像対テキストに対するグレイボックス攻撃を提案する。
本稿では,画像エンコーダ成分のみを用いる最適化問題として,言語モデルに依存しない逆摂動を探索するプロセスを定式化する。
また,Hugging Faceの最もよく使われている画像とテキストのモデルであるViT-GPT2モデルとFlickr30kデータセットを用いた実験により,この攻撃により,ターゲットのないキャプションとターゲットのキャプションの両方で,視覚的に類似したサンプルを生成することができた。
私たちの攻撃はグレーボックス方式で実行されており、デコーダモジュールに関する知識は必要ない。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
関連論文リスト
- Ask, Attend, Attack: A Effective Decision-Based Black-Box Targeted Attack for Image-to-Text Models [29.1607388062023]
本稿では,攻撃者が最終出力テキストにのみアクセスし,標的攻撃を行うことを目的とした決定ベースのブラックボックス攻撃という,困難なシナリオに焦点を当てる。
3段階のプロセス textitAsk, Attend, Attack は textitAAA と呼ばれ、解決者と協調するために提案されている。
Transformer-basedおよびCNN+RNN-based image-to-text modelの実験結果から,提案したtextitAAAの有効性が確認された。
論文 参考訳(メタデータ) (2024-08-16T19:35:06Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - When Vision Fails: Text Attacks Against ViT and OCR [25.132777620934768]
テキストベース機械学習モデルは、テキストとして符号化された視覚的敵の例に対して、まだ脆弱であることを示す。
ブラックボックス設定において、遺伝的アルゴリズムを用いて視覚的敵の例を生成する方法を示す。
我々は、Facebook、Microsoft、IBM、Googleが発行したプロダクションモデルに対する敵対的な例を作成することで、これらの攻撃の有効性を実世界で実証する。
論文 参考訳(メタデータ) (2023-06-12T11:26:08Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Adversarial examples by perturbing high-level features in intermediate
decoder layers [0.0]
画素を摂動する代わりに、入力画像のエンコーダ-デコーダ表現とデコーダの中間層を摂動する。
我々の摂動は、より長いくちばしや緑のくちばしのような意味的な意味を持っている。
本手法は,敵の攻撃に対して,敵の訓練に基づく防御技術が脆弱であることを示す。
論文 参考訳(メタデータ) (2021-10-14T07:08:15Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Adversarial Attacks on Binary Image Recognition Systems [78.78811131936622]
本研究では,二分法(黒と白)画像分類モデルに対する敵対攻撃について検討する。
カラー画像とグレースケール画像とは対照的に、バイナリ画像に対する攻撃の探索空間は極めて制限されている。
バイナリイメージの分類を騙すために設計された,SCARと呼ばれる新しい攻撃アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-22T14:57:42Z) - Image to Language Understanding: Captioning approach [1.7188280334580195]
本研究の目的は,画像キャプション問題に対する様々なアプローチを比較することである。
エンコーダ・デコーダ方式では,複数モーダル画像キャプション方式と比較した。
画像をアップロードすると、そのようなシステムは画像に関連付けられた最高のキャプションを出力する。
論文 参考訳(メタデータ) (2020-02-21T20:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。