論文の概要: A Survey on Model Extraction Attacks and Defenses for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.22521v1
- Date: Thu, 26 Jun 2025 22:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.445053
- Title: A Survey on Model Extraction Attacks and Defenses for Large Language Models
- Title(参考訳): 大規模言語モデルに対するモデル抽出攻撃と防御に関する調査
- Authors: Kaixiang Zhao, Lincan Li, Kaize Ding, Neil Zhenqiang Gong, Yue Zhao, Yushun Dong,
- Abstract要約: モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
- 参考スコア(独自算出の注目度): 55.60375624503877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model extraction attacks pose significant security threats to deployed language models, potentially compromising intellectual property and user privacy. This survey provides a comprehensive taxonomy of LLM-specific extraction attacks and defenses, categorizing attacks into functionality extraction, training data extraction, and prompt-targeted attacks. We analyze various attack methodologies including API-based knowledge distillation, direct querying, parameter recovery, and prompt stealing techniques that exploit transformer architectures. We then examine defense mechanisms organized into model protection, data privacy protection, and prompt-targeted strategies, evaluating their effectiveness across different deployment scenarios. We propose specialized metrics for evaluating both attack effectiveness and defense performance, addressing the specific challenges of generative language models. Through our analysis, we identify critical limitations in current approaches and propose promising research directions, including integrated attack methodologies and adaptive defense mechanisms that balance security with model utility. This work serves NLP researchers, ML engineers, and security professionals seeking to protect language models in production environments.
- Abstract(参考訳): モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらし、知的財産権とユーザのプライバシーを損なう可能性がある。
この調査は、LLM固有の抽出攻撃と防御の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
本稿では,APIベースの知識蒸留,直接クエリ,パラメータリカバリ,トランスフォーマーアーキテクチャを利用した迅速な盗難手法など,さまざまな攻撃手法を解析する。
次に、モデル保護、データプライバシ保護、迅速なターゲット戦略に編成された防御機構を調べ、その効果を異なるデプロイメントシナリオで評価する。
本稿では,攻撃の有効性と防御性能を評価するための特別な指標を提案し,生成言語モデルの具体的な課題に対処する。
本分析により,現在のアプローチにおける限界を識別し,モデルユーティリティとセキュリティのバランスをとる攻撃手法や適応防御機構など,将来的な研究方向性を提案する。
この作業は、NLP研究者、MLエンジニア、および運用環境における言語モデル保護を求めるセキュリティ専門家に役立ちます。
関連論文リスト
- MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Attack and defense techniques in large language models: A survey and new perspectives [5.600972861188751]
大規模言語モデル(LLM)は多くの自然言語処理タスクの中心となっているが、その脆弱性はセキュリティと倫理的課題を呈している。
この体系的な調査は、LLMにおける攻撃と防御技術の進化の展望を探求する。
論文 参考訳(メタデータ) (2025-05-02T03:37:52Z) - A Survey of Model Extraction Attacks and Defenses in Distributed Computing Environments [55.60375624503877]
モデル抽出攻撃(MEA)は、敵がモデルを盗み、知的財産と訓練データを公開することによって、現代の機械学習システムを脅かす。
この調査は、クラウド、エッジ、フェデレーションのユニークな特性がどのように攻撃ベクトルや防御要件を形作るのかを、緊急に理解する必要に起因している。
本研究は, 自動運転車, 医療, 金融サービスといった重要な分野において, 環境要因がセキュリティ戦略にどう影響するかを実証し, 攻撃手法と防衛機構の進化を系統的に検討する。
論文 参考訳(メタデータ) (2025-02-22T03:46:50Z) - Model Privacy: A Unified Framework to Understand Model Stealing Attacks and Defenses [11.939472526374246]
この研究は、モデルプライバシ(Model Privacy)と呼ばれるフレームワークを提示し、モデル盗難攻撃と防御を包括的に分析する基盤を提供する。
本稿では,攻撃戦略と防衛戦略の妥当性を定量化する手法を提案し,MLモデルにおけるユーティリティとプライバシの基本的なトレードオフを分析する。
論文 参考訳(メタデータ) (2025-02-21T16:29:11Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - I Know What You Trained Last Summer: A Survey on Stealing Machine
Learning Models and Defences [0.1031296820074812]
本研究では,モデル盗難攻撃について検討し,その性能を評価し,異なる環境で対応する防御技術を探究する。
攻撃・防衛アプローチのための分類法を提案し,目標と利用可能な資源に基づいて適切な攻撃・防衛を選択する方法に関するガイドラインを提供する。
論文 参考訳(メタデータ) (2022-06-16T21:16:41Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。