論文の概要: Stealix: Model Stealing via Prompt Evolution
- arxiv url: http://arxiv.org/abs/2506.05867v1
- Date: Fri, 06 Jun 2025 08:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.383071
- Title: Stealix: Model Stealing via Prompt Evolution
- Title(参考訳): Stealix: プロンプト進化によるモデルステアリング
- Authors: Zhixiong Zhuang, Hui-Po Wang, Maria-Irina Nicolae, Mario Fritz,
- Abstract要約: 我々は、事前に定義されたプロンプトなしでモデルステルスを実行する最初のアプローチであるStealixを紹介した。
Stealixは2つのオープンソースの事前訓練モデルを使用して、被害者モデルのデータ分布を推定し、遺伝的アルゴリズムを通じてプロンプトを反復的に洗練する。
実験の結果、Stealixはクラス名やきめ細かいプロンプトにアクセスしても、他のメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 45.61283468341869
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model stealing poses a significant security risk in machine learning by enabling attackers to replicate a black-box model without access to its training data, thus jeopardizing intellectual property and exposing sensitive information. Recent methods that use pre-trained diffusion models for data synthesis improve efficiency and performance but rely heavily on manually crafted prompts, limiting automation and scalability, especially for attackers with little expertise. To assess the risks posed by open-source pre-trained models, we propose a more realistic threat model that eliminates the need for prompt design skills or knowledge of class names. In this context, we introduce Stealix, the first approach to perform model stealing without predefined prompts. Stealix uses two open-source pre-trained models to infer the victim model's data distribution, and iteratively refines prompts through a genetic algorithm, progressively improving the precision and diversity of synthetic images. Our experimental results demonstrate that Stealix significantly outperforms other methods, even those with access to class names or fine-grained prompts, while operating under the same query budget. These findings highlight the scalability of our approach and suggest that the risks posed by pre-trained generative models in model stealing may be greater than previously recognized.
- Abstract(参考訳): モデル盗難は、攻撃者がトレーニングデータにアクセスせずにブラックボックスモデルを複製できるようにすることで、機械学習において重大なセキュリティリスクを引き起こす。
データ合成に事前訓練された拡散モデルを使用する最近の手法は、効率と性能を向上させるが、手作業によるプロンプトに大きく依存し、自動化とスケーラビリティを制限している。
オープンソース事前学習モデルがもたらすリスクを評価するため,設計スキルやクラス名の知識を急ぐ必要のない,より現実的な脅威モデルを提案する。
この文脈では、事前に定義されたプロンプトなしでモデルステルスを行う最初のアプローチであるStealixを紹介します。
Stealixは2つのオープンソースの事前訓練モデルを使用して、被害者のモデルのデータ分布を推定し、遺伝的アルゴリズムを通じてプロンプトを反復的に洗練し、合成画像の精度と多様性を徐々に改善する。
実験の結果、Stealixはクラス名やきめ細かいプロンプトにアクセスしても、同じクエリ予算の下で動作しながら、他のメソッドよりも大幅に優れています。
これらの結果は,本手法のスケーラビリティを浮き彫りにして,モデルステルスにおける事前学習生成モデルによるリスクが,これまで認識されていたよりも大きい可能性を示唆している。
関連論文リスト
- Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing [21.52641337754884]
ある種の敵攻撃は、トレーニングデータセットを汚染することで、機械学習モデルの振る舞いを操作できる。
EDTモデル, textbfEfficient, textbfData-free, textbfTraining-free バックドアアタック手法を導入する。
モデル編集技術にインスパイアされたEDTは、編集ベースの軽量コードブックを、大規模な事前訓練されたモデルのバックドアに注入する。
論文 参考訳(メタデータ) (2024-10-23T20:32:14Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - MEGA: Model Stealing via Collaborative Generator-Substitute Networks [4.065949099860426]
近年のデータフリーモデルステイティングメソッドは,実際のクエリの例を使わずに,ターゲットモデルの知識を抽出するために有効であることが示されている。
本稿では,データフリーモデルステーリングフレームワーク(MEGA)を提案する。
以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い値となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-31T09:34:28Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。