論文の概要: VerifyPrompt: How to Verify Text-to-Image Models Behind Black-Box API?
- arxiv url: http://arxiv.org/abs/2410.22725v3
- Date: Thu, 27 Feb 2025 02:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:04.188219
- Title: VerifyPrompt: How to Verify Text-to-Image Models Behind Black-Box API?
- Title(参考訳): VerifyPrompt: Black-Box APIの背後にあるテキスト間モデルを検証するには?
- Authors: Ji Guo, Wenbo Jiang, Rui Zhang, Guoming Lu, Hongwei Li,
- Abstract要約: ブラックボックス対象モデルが与えられたホワイトボックス参照T2Iモデルと同一であるかどうかを判定することを目的としたT2Iモデル検証を提案する。
イントレピッドプロンプト(Intrepid prompt)は、他のモデルに対する転送可能性のないターゲットモデルの逆プロンプトである。
IntrepidPromptは、様々なT2Iモデルで90%以上の精度を実現している。
- 参考スコア(独自算出の注目度): 8.616538774420812
- License:
- Abstract: Recently, various types of Text-to-Image (T2I) models have emerged (such as DALL-E and Stable Diffusion), and showing their advantages in different aspects. Therefore, some third-party service platforms collect different model interfaces and provide cheaper API services and more flexibility in T2I model selections. However, this also raises a new security concern: Are these third-party services truly offering the models they claim? To answer this question, we first define the concept of T2I model verification, which aims to determine whether a black-box target model is identical to a given white-box reference T2I model. After that, we propose VerifyPrompt, which performs T2I model verification through a special designed verify prompt. Intuitionally, the verify prompt is an adversarial prompt for the target model without transferability for other models. It makes the target model generate a specific image while making other models produce entirely different images. Specifically, VerifyPrompt utilizes the Non-dominated Sorting Genetic Algorithm II (NSGA-II) to optimize the cosine similarity of a prompt's text encoding, generating verify prompts. Finally, by computing the CLIP-text similarity scores between the prompts the generated images, VerifyPrompt can determine whether the target model aligns with the reference model. Experimental results demonstrate that VerifyPrompt consistently achieves over 90\% accuracy across various T2I models, confirming its effectiveness in practical model platforms (such as Hugging Face).
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)モデル(DALL-Eやスタブル・ディフュージョンなど)が登場し,その利点は様々である。
したがって、一部のサードパーティサービスプラットフォームは、異なるモデルインターフェースを収集し、より安価なAPIサービスを提供し、T2Iモデルの選択をより柔軟にする。
しかし、これはまた、新たなセキュリティ上の懸念も引き起こす: これらのサードパーティサービスは、彼らが主張するモデルを本当に提供しているのだろうか?
そこで我々はまず,ブラックボックス対象モデルが与えられたホワイトボックス参照T2Iモデルと同一であるかどうかを判定することを目的とした,T2Iモデル検証の概念を定義した。
その後、特別に設計された検証プロンプトを用いてT2Iモデル検証を行うVerifyPromptを提案する。
直感的には、検証プロンプトは他モデルの転送性のないターゲットモデルの逆プロンプトである。
ターゲットモデルは特定のイメージを生成し、他のモデルは全く異なるイメージを生成する。
具体的には、VerifyPromptはNon-dominated Sorting Genetic Algorithm II (NSGA-II)を使用してプロンプトのテキストエンコーディングのコサイン類似性を最適化し、検証プロンプトを生成する。
最後に、生成された画像のプロンプト間のCLIP-text類似度スコアを計算することで、VerifyPromptはターゲットモデルが参照モデルと一致しているかどうかを判断できる。
実験の結果、VerifyPromptは様々なT2Iモデルに対して90%以上の精度を一貫して達成し、実用的なモデルプラットフォーム(Hugging Faceなど)での有効性を確認した。
関連論文リスト
- PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [16.67563247104523]
現在のテキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成することができる。
良心的な目的のためにのみこのモデルを使用することを許可された悪意あるユーザーは、自分のモデルを変更して、有害な社会的影響をもたらす画像を生成するかもしれない。
本稿では,T2I拡散モデルの高精度かつ高精度な完全性検証のための新しいプロンプト選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-20T07:24:32Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MEGA: Model Stealing via Collaborative Generator-Substitute Networks [4.065949099860426]
近年のデータフリーモデルステイティングメソッドは,実際のクエリの例を使わずに,ターゲットモデルの知識を抽出するために有効であることが示されている。
本稿では,データフリーモデルステーリングフレームワーク(MEGA)を提案する。
以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い値となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-31T09:34:28Z) - CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial
Text Generation [20.27052525082402]
本稿では,制御可能な属性による逆テキストを生成する制御付き逆テキスト生成(CAT-Gen)モデルを提案する。
実世界のNLPデータセットを用いた実験により,本手法はより多種多様な逆数文を生成することができることが示された。
論文 参考訳(メタデータ) (2020-10-05T21:07:45Z) - Second-Order NLP Adversarial Examples [0.18855270809505867]
適応例生成法は言語モデルや文エンコーダのようなモデルに頼り、潜在的な敵対例が有効かどうかを判断する。
これらの方法では、有効な敵の例は攻撃されているモデルを騙し、セマンティックまたは構文的に第2のモデルによって有効であると判断される。
これらの逆例は攻撃されたモデルにおける欠陥ではなく、有効性を決定するモデルにおける欠陥である、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-05T04:32:38Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。