論文の概要: On the Feasibility of Poisoning Text-to-Image AI Models via Adversarial Mislabeling
- arxiv url: http://arxiv.org/abs/2506.21874v1
- Date: Fri, 27 Jun 2025 03:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.06723
- Title: On the Feasibility of Poisoning Text-to-Image AI Models via Adversarial Mislabeling
- Title(参考訳): テキストと画像のAIモデルに対する対立的ミスラベリングの可能性について
- Authors: Stanley Wu, Ronik Bhaskar, Anna Yoo Jeong Ha, Shawn Shan, Haitao Zheng, Ben Y. Zhao,
- Abstract要約: インターネットから得られる何百万もの画像に対してテキスト・画像生成モデルを訓練し、それぞれが視覚言語モデル(VLM)によって生成された詳細なキャプションと組み合わせる。
VLMは、画像に摂動を付加し、VLMを誤ったキャプションを発生させる、ステルスな敵攻撃に対して脆弱である。
潜在的な防御効果は有効であるが、アダプティブアタッカーによる攻撃を標的とし回避することができる。
- 参考スコア(独自算出の注目度): 24.730395152276927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's text-to-image generative models are trained on millions of images sourced from the Internet, each paired with a detailed caption produced by Vision-Language Models (VLMs). This part of the training pipeline is critical for supplying the models with large volumes of high-quality image-caption pairs during training. However, recent work suggests that VLMs are vulnerable to stealthy adversarial attacks, where adversarial perturbations are added to images to mislead the VLMs into producing incorrect captions. In this paper, we explore the feasibility of adversarial mislabeling attacks on VLMs as a mechanism to poisoning training pipelines for text-to-image models. Our experiments demonstrate that VLMs are highly vulnerable to adversarial perturbations, allowing attackers to produce benign-looking images that are consistently miscaptioned by the VLM models. This has the effect of injecting strong "dirty-label" poison samples into the training pipeline for text-to-image models, successfully altering their behavior with a small number of poisoned samples. We find that while potential defenses can be effective, they can be targeted and circumvented by adaptive attackers. This suggests a cat-and-mouse game that is likely to reduce the quality of training data and increase the cost of text-to-image model development. Finally, we demonstrate the real-world effectiveness of these attacks, achieving high attack success (over 73%) even in black-box scenarios against commercial VLMs (Google Vertex AI and Microsoft Azure).
- Abstract(参考訳): 今日のテキスト・画像生成モデルは、インターネットから得られる何百万もの画像に基づいて訓練されており、それぞれがビジョン・ランゲージ・モデル(VLM)によって作成された詳細なキャプションと組み合わせられている。
トレーニングパイプラインのこの部分は、トレーニング中に大量の高品質の画像キャプチャペアを供給するために重要である。
しかし、最近の研究は、VLMは敵対的攻撃に弱いことを示唆しており、敵対的摂動が画像に加わり、VLMを誤った字幕を作るように誤解させる。
本稿では,テキスト・ツー・イメージ・モデルのためのトレーニングパイプラインを毒殺するためのメカニズムとして,VLMに対する逆ラベル攻撃の可能性について検討する。
我々の実験では、VLMは敵の摂動に対して非常に脆弱であることが示され、攻撃者は常にVLMモデルに不注意な良質なイメージを生成できる。
これは、強い"dirty-label"毒のサンプルをテキスト・ツー・イメージの訓練パイプラインに注入し、少数の毒のサンプルでその振る舞いを変える効果がある。
潜在的な防御効果は有効であるが、アダプティブアタッカーによる攻撃を標的とし回避することができる。
これは、トレーニングデータの質を低下させ、テキスト・ツー・イメージ・モデルの開発コストを増大させる可能性がある猫とマウスのゲームであることを示唆している。
最後に、商用VLM(Google Vertex AIとMicrosoft Azure)に対するブラックボックスシナリオにおいても、これらの攻撃の現実的な効果を実証し、高い攻撃成功(73%以上)を達成する。
関連論文リスト
- AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Image Hijacks: Adversarial Images can Control Generative Models at Runtime [8.603201325413192]
推論時に視覚言語モデルの振る舞いを制御する画像ハイジャック, 逆画像を検出する。
Prompt Matching法を考案し、任意のユーザ定義テキストプロンプトの動作にマッチしたハイジャックをトレーニングする。
我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
論文 参考訳(メタデータ) (2023-09-01T03:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。