論文の概要: Controlled Caption Generation for Images Through Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2107.03050v1
- Date: Wed, 7 Jul 2021 07:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 22:20:20.548986
- Title: Controlled Caption Generation for Images Through Adversarial Attacks
- Title(参考訳): 敵対的攻撃による画像のキャプション生成制御
- Authors: Nayyer Aafaq, Naveed Akhtar, Wei Liu, Mubarak Shah and Ajmal Mian
- Abstract要約: 画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 85.66266989600572
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep learning is found to be vulnerable to adversarial examples. However, its
adversarial susceptibility in image caption generation is under-explored. We
study adversarial examples for vision and language models, which typically
adopt an encoder-decoder framework consisting of two major components: a
Convolutional Neural Network (i.e., CNN) for image feature extraction and a
Recurrent Neural Network (RNN) for caption generation. In particular, we
investigate attacks on the visual encoder's hidden layer that is fed to the
subsequent recurrent network. The existing methods either attack the
classification layer of the visual encoder or they back-propagate the gradients
from the language model. In contrast, we propose a GAN-based algorithm for
crafting adversarial examples for neural image captioning that mimics the
internal representation of the CNN such that the resulting deep features of the
input image enable a controlled incorrect caption generation through the
recurrent network. Our contribution provides new insights for understanding
adversarial attacks on vision systems with language component. The proposed
method employs two strategies for a comprehensive evaluation. The first
examines if a neural image captioning system can be misled to output targeted
image captions. The second analyzes the possibility of keywords into the
predicted captions. Experiments show that our algorithm can craft effective
adversarial images based on the CNN hidden layers to fool captioning framework.
Moreover, we discover the proposed attack to be highly transferable. Our work
leads to new robustness implications for neural image captioning.
- Abstract(参考訳): ディープラーニングは、敵の例に弱いことが分かる。
しかし,画像キャプション生成における逆の感受性は低い。
画像特徴抽出のための畳み込みニューラルネットワーク(CNN)とキャプション生成のためのリカレントニューラルネットワーク(RNN)の2つの主要コンポーネントからなるエンコーダ・デコーダ・フレームワークを採用する。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
既存のメソッドは、ビジュアルエンコーダの分類層を攻撃するか、言語モデルから勾配をバックプロパゲーションする。
対照的に、入力画像の内部表現を模倣したニューラルイメージキャプションの逆例を作成するためのGANベースのアルゴリズムを提案し、入力画像の深い特徴が再帰的ネットワークを介して制御された誤ったキャプション生成を可能にする。
我々の貢献は、言語コンポーネントを持つ視覚システムに対する敵攻撃を理解するための新たな洞察を提供する。
提案手法は総合評価のための2つの戦略を用いる。
第1は、ニューラルイメージキャプションシステムが、ターゲット画像キャプションを出力するために誤用できるかどうかを調べる。
後者は、予測されたキャプションにキーワードの可能性を分析する。
実験により,cnn隠れレイヤに基づく効果的な逆画像を作成し,キャプションフレームワークを騙すことができることを示した。
さらに,提案した攻撃は高い伝達性を有することがわかった。
我々の研究はニューラルイメージキャプションに新たな堅牢性をもたらす。
関連論文リスト
- A Comparative Study of Pre-trained CNNs and GRU-Based Attention for
Image Caption Generation [9.490898534790977]
本稿では,GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワークを提案する。
提案手法では,複数の事前学習された畳み込みニューラルネットワークをエンコーダとして,画像から特徴を抽出し,文を生成するデコーダとしてGRUベースの言語モデルを用いる。
論文 参考訳(メタデータ) (2023-10-11T07:30:01Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文 参考訳(メタデータ) (2023-06-13T07:35:28Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。
この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文 参考訳(メタデータ) (2022-05-30T18:04:57Z) - A Deep Neural Framework for Image Caption Generation Using GRU-Based
Attention Mechanism [5.855671062331371]
本研究では、事前学習された畳み込みニューラルネットワーク(CNN)を用いて画像から特徴を抽出し、特徴を注意機構と統合し、繰り返しニューラルネットワーク(RNN)を用いてキャプションを作成するシステムを開発することを目的とする。
MSCOCOデータセットでは、実験結果が最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2022-03-03T09:47:59Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。