論文の概要: Natural Language Induced Adversarial Images
- arxiv url: http://arxiv.org/abs/2410.08620v1
- Date: Fri, 11 Oct 2024 08:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:54:46.339250
- Title: Natural Language Induced Adversarial Images
- Title(参考訳): 自然言語による対角画像
- Authors: Xiaopei Zhu, Peiyang Xu, Guanning Zeng, Yingpeng Dong, Xiaolin Hu,
- Abstract要約: 本稿では,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、入力プロンプトが与えられた逆画像を生成するために、テキスト・ツー・イメージモデルを活用することである。
実験の結果,"foggy","humid","stretching"などの高周波意味情報が誤りを生じやすいことがわかった。
- 参考スコア(独自算出の注目度): 14.415478695871604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research of adversarial attacks is important for AI security because it shows the vulnerability of deep learning models and helps to build more robust models. Adversarial attacks on images are most widely studied, which include noise-based attacks, image editing-based attacks, and latent space-based attacks. However, the adversarial examples crafted by these methods often lack sufficient semantic information, making it challenging for humans to understand the failure modes of deep learning models under natural conditions. To address this limitation, we propose a natural language induced adversarial image attack method. The core idea is to leverage a text-to-image model to generate adversarial images given input prompts, which are maliciously constructed to lead to misclassification for a target model. To adopt commercial text-to-image models for synthesizing more natural adversarial images, we propose an adaptive genetic algorithm (GA) for optimizing discrete adversarial prompts without requiring gradients and an adaptive word space reduction method for improving query efficiency. We further used CLIP to maintain the semantic consistency of the generated images. In our experiments, we found that some high-frequency semantic information such as "foggy", "humid", "stretching", etc. can easily cause classifier errors. This adversarial semantic information exists not only in generated images but also in photos captured in the real world. We also found that some adversarial semantic information can be transferred to unknown classification tasks. Furthermore, our attack method can transfer to different text-to-image models (e.g., Midjourney, DALL-E 3, etc.) and image classifiers. Our code is available at: https://github.com/zxp555/Natural-Language-Induced-Adversarial-Images.
- Abstract(参考訳): ディープラーニングモデルの脆弱性を示し、より堅牢なモデルの構築を支援するため、AIセキュリティにとって、敵攻撃の研究は重要である。
画像に対する敵対的攻撃は、ノイズベースの攻撃、画像編集ベースの攻撃、遅延空間ベースの攻撃など、最も広く研究されている。
しかし、これらの手法によって作られた敵の例は十分な意味情報を欠くことが多く、人間が自然条件下でのディープラーニングモデルの失敗モードを理解することは困難である。
この制限に対処するため,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、テキスト・ツー・イメージモデルを利用して入力プロンプトが与えられた逆画像を生成することである。
より自然な逆画像の合成のための商用テキスト・ツー・イメージモデルを採用するために、勾配を必要とせずに離散的逆プロンプトを最適化するための適応型遺伝的アルゴリズム(GA)と、クエリ効率を向上させるための適応型単語空間削減手法を提案する。
さらに、生成された画像のセマンティック一貫性を維持するためにCLIPを使用しました。
実験の結果、"foggy"、"humid"、"stretching"などの高周波セマンティック情報が容易に分類誤りを引き起こすことがわかった。
この敵対的意味情報は、生成された画像だけでなく、現実世界で撮影された写真にも存在している。
また,いくつかの逆意味情報を未知の分類タスクに転送することも確認した。
さらに,攻撃手法は異なるテキスト・画像モデル(例えば,Midjourney,DALL-E 3など)と画像分類器に転送できる。
私たちのコードは、https://github.com/zxp555/Natural-Language-induced-Adversarial-Imagesで利用可能です。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Detecting Adversaries, yet Faltering to Noise? Leveraging Conditional
Variational AutoEncoders for Adversary Detection in the Presence of Noisy
Images [0.7734726150561086]
条件変分オートエンコーダ(CVAE)は、知覚不能な画像摂動を検出するのに驚くほど優れている。
画像分類ネットワーク上での敵攻撃を検出するために,CVAEを効果的に利用する方法を示す。
論文 参考訳(メタデータ) (2021-11-28T20:36:27Z) - Adversarial examples by perturbing high-level features in intermediate
decoder layers [0.0]
画素を摂動する代わりに、入力画像のエンコーダ-デコーダ表現とデコーダの中間層を摂動する。
我々の摂動は、より長いくちばしや緑のくちばしのような意味的な意味を持っている。
本手法は,敵の攻撃に対して,敵の訓練に基づく防御技術が脆弱であることを示す。
論文 参考訳(メタデータ) (2021-10-14T07:08:15Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z) - Towards Achieving Adversarial Robustness by Enforcing Feature
Consistency Across Bit Planes [51.31334977346847]
我々は、高ビット平面の情報に基づいて粗い印象を形成するためにネットワークを訓練し、低ビット平面を用いて予測を洗練させる。
異なる量子化画像間で学習した表現に一貫性を付与することにより、ネットワークの対角的ロバスト性が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-04-01T09:31:10Z) - Just Noticeable Difference for Machines to Generate Adversarial Images [0.34376560669160383]
提案手法は、Just Noticeable differenceと呼ばれる実験心理学の一般的な概念に基づいている。
本研究で生成した対向画像は, 対向画像生成装置の出力と比較すると, より自然なように見える。
論文 参考訳(メタデータ) (2020-01-29T19:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。