論文の概要: One Prompt to Verify Your Models: Black-Box Text-to-Image Models Verification via Non-Transferable Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2410.22725v2
- Date: Thu, 31 Oct 2024 08:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 09:54:43.837555
- Title: One Prompt to Verify Your Models: Black-Box Text-to-Image Models Verification via Non-Transferable Adversarial Attacks
- Title(参考訳): ブラックボックスのテキスト・ツー・イメージモデル検証:非トランスファラブル・アタックによる検証
- Authors: Ji Guo, Wenbo Jiang, Rui Zhang, Guoming Lu, Hongwei Li,
- Abstract要約: 我々は,ノントランスファラブル・アドリアック(TVN)によるテキスト・ツー・イメージ・モデル検証という,最初のT2Iモデル検証手法を提案する。
TVNはNon-dominated Sorting Genetic Algorithm II (NSGA-II)に基づいて、プロンプトのテキストエンコーディングのコサイン類似性を最適化する。
TVNはクローズドセットとオープンセットの両方のシナリオで良好に動作し、90%以上の検証精度を実現した。
- 参考スコア(独自算出の注目度): 8.616538774420812
- License:
- Abstract: Recently, the success of Text-to-Image (T2I) models has led to the rise of numerous third-party platforms, which claim to provide cheaper API services and more flexibility in model options. However, this also raises a new security concern: Are these third-party services truly offering the models they claim? To address this problem, we propose the first T2I model verification method named Text-to-Image Model Verification via Non-Transferable Adversarial Attacks (TVN). The non-transferability of adversarial examples means that these examples are only effective on a target model and ineffective on other models, thereby allowing for the verification of the target model. TVN utilizes the Non-dominated Sorting Genetic Algorithm II (NSGA-II) to optimize the cosine similarity of a prompt's text encoding, generating non-transferable adversarial prompts. By calculating the CLIP-text scores between the non-transferable adversarial prompts without perturbations and the images, we can verify if the model matches the claimed target model, based on a 3-sigma threshold. The experiments showed that TVN performed well in both closed-set and open-set scenarios, achieving a verification accuracy of over 90\%. Moreover, the adversarial prompts generated by TVN significantly reduced the CLIP-text scores of the target model, while having little effect on other models.
- Abstract(参考訳): 最近、Text-to-Image(T2I)モデルの成功により、多くのサードパーティプラットフォームが台頭し、より安価なAPIサービスを提供し、モデルオプションの柔軟性が向上した。
しかし、これはまた、新たなセキュリティ上の懸念も引き起こす: これらのサードパーティサービスは、彼らが主張するモデルを本当に提供しているのだろうか?
この問題に対処するために,ノントランスファラブル・アタック(TVN)によるテキスト・ツー・イメージ・モデル検証という,最初のT2Iモデル検証手法を提案する。
逆例の非伝達性は、これらの例が対象モデルにのみ有効であり、他のモデルに有効でないことを意味するため、対象モデルの検証が可能となる。
TVNはNon-dominated Sorting Genetic Algorithm II (NSGA-II)を用いてプロンプトのテキストエンコーディングのコサイン類似性を最適化し、非伝達可能な逆プロンプトを生成する。
摂動を伴わない変換不能な逆数プロンプトと画像とのCLIP-textスコアを計算することで,モデルが要求対象モデルと一致するかどうかを3シグマしきい値に基づいて検証できる。
実験の結果,TVNはクローズドセットとオープンセットの両方のシナリオで良好に動作し,90%以上の精度が得られた。
さらに,TVNが生成した逆方向のプロンプトは,他のモデルにはほとんど影響を与えず,対象モデルのCLIPテキストスコアを著しく低減した。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MEGA: Model Stealing via Collaborative Generator-Substitute Networks [4.065949099860426]
近年のデータフリーモデルステイティングメソッドは,実際のクエリの例を使わずに,ターゲットモデルの知識を抽出するために有効であることが示されている。
本稿では,データフリーモデルステーリングフレームワーク(MEGA)を提案する。
以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い値となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-31T09:34:28Z) - CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial
Text Generation [20.27052525082402]
本稿では,制御可能な属性による逆テキストを生成する制御付き逆テキスト生成(CAT-Gen)モデルを提案する。
実世界のNLPデータセットを用いた実験により,本手法はより多種多様な逆数文を生成することができることが示された。
論文 参考訳(メタデータ) (2020-10-05T21:07:45Z) - Second-Order NLP Adversarial Examples [0.18855270809505867]
適応例生成法は言語モデルや文エンコーダのようなモデルに頼り、潜在的な敵対例が有効かどうかを判断する。
これらの方法では、有効な敵の例は攻撃されているモデルを騙し、セマンティックまたは構文的に第2のモデルによって有効であると判断される。
これらの逆例は攻撃されたモデルにおける欠陥ではなく、有効性を決定するモデルにおける欠陥である、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-05T04:32:38Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。