論文の概要: $δ$-STEAL: LLM Stealing Attack with Local Differential Privacy
- arxiv url: http://arxiv.org/abs/2510.21946v1
- Date: Fri, 24 Oct 2025 18:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.708297
- Title: $δ$-STEAL: LLM Stealing Attack with Local Differential Privacy
- Title(参考訳): $δ$-STEAL: ローカル差分プライバシによるLLMステアリング攻撃
- Authors: Kieu Dang, Phung Lai, NhatHai Phan, Yelong Shen, Ruoming Jin, Abdallah Khreishah,
- Abstract要約: 我々は、相手のモデルユーティリティを保ちながら、サービス提供者の透かし検出器をバイパスするモデル盗難攻撃である$delta$-STEALを紹介します。
実験の結果、$delta$-STEALは敵のモデルユーティリティを著しく損なうことなく、最大9,6.95%の攻撃成功率を達成することがわかった。
- 参考スコア(独自算出の注目度): 24.88863537562324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable capabilities across various tasks. However, their deployment introduces significant risks related to intellectual property. In this context, we focus on model stealing attacks, where adversaries replicate the behaviors of these models to steal services. These attacks are highly relevant to proprietary LLMs and pose serious threats to revenue and financial stability. To mitigate these risks, the watermarking solution embeds imperceptible patterns in LLM outputs, enabling model traceability and intellectual property verification. In this paper, we study the vulnerability of LLM service providers by introducing $\delta$-STEAL, a novel model stealing attack that bypasses the service provider's watermark detectors while preserving the adversary's model utility. $\delta$-STEAL injects noise into the token embeddings of the adversary's model during fine-tuning in a way that satisfies local differential privacy (LDP) guarantees. The adversary queries the service provider's model to collect outputs and form input-output training pairs. By applying LDP-preserving noise to these pairs, $\delta$-STEAL obfuscates watermark signals, making it difficult for the service provider to determine whether its outputs were used, thereby preventing claims of model theft. Our experiments show that $\delta$-STEAL with lightweight modifications achieves attack success rates of up to $96.95\%$ without significantly compromising the adversary's model utility. The noise scale in LDP controls the trade-off between attack effectiveness and model utility. This poses a significant risk, as even robust watermarks can be bypassed, allowing adversaries to deceive watermark detectors and undermine current intellectual property protection methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。
しかし、その展開は知的財産に関する重大なリスクをもたらす。
この文脈では、モデルを盗む攻撃に焦点を合わせ、敵がこれらのモデルの振る舞いを複製してサービスを盗む。
これらの攻撃はプロプライエタリなLLMと非常に関係があり、収益と金融安定に深刻な脅威をもたらす。
これらのリスクを軽減するため、透かしソリューションはLLM出力に認識不能なパターンを埋め込み、モデルトレーサビリティと知的財産の検証を可能にする。
本稿では, LLM サービスプロバイダの脆弱性を, 相手のモデルユーティリティを保ちながら, サービスプロバイダの透かし検出器をバイパスする, 新たなモデル盗難攻撃である $\delta$-STEAL を導入して検討する。
$\delta$-STEALは、ローカルディファレンシャルプライバシ(LDP)の保証を満たす方法で、微調整中に、相手モデルのトークン埋め込みにノイズを注入する。
相手はサービスプロバイダのモデルをクエリしてアウトプットを収集し、インプット・アウトプットのトレーニングペアを形成する。
これらのペアにLDP保存ノイズを適用することで、$\delta$-STEALは透かし信号を難なくし、サービスプロバイダが出力が使用されているかどうかを判断し、モデル盗難の請求を防止できる。
実験の結果, 軽量改造による$\delta$-STEALは, 相手のモデルユーティリティを著しく損なうことなく, 最大9,6.95 %の攻撃成功率が得られることがわかった。
LDPのノイズスケールは、攻撃効率とモデルユーティリティのトレードオフを制御する。
このことは、堅牢な透かしでさえバイパスでき、敵が透かし検知器を騙し、現在の知的財産保護法を弱めることができるという重大なリスクをもたらす。
関連論文リスト
- AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection [26.066755429896926]
バックドアの透かしとしてOoD(Out-of-Distribution)データを選択し、著作権保護のためにオリジナルのモデルを再訓練する。
既存の方法は、敵による悪意のある検出と偽造を受けやすいため、透かしの回避につながる。
マルチモーダルモデル著作権保護におけるステルスネスとロバストネスの課題に対処するために,モデル-アンダーラインに依存しないブラックボックスのバックドアWunderlineatermarking Framework (AGATE)を提案する。
論文 参考訳(メタデータ) (2025-04-28T14:52:01Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model [0.0]
本稿では,モデル分類モジュールを置換し,モデル全体の微調整を行う新たな脅威を提案する。
私たちは、盗難の所有権ステートメントを防ぐために、タンパー保護やトレーサビリティといったブロックチェーンの特性を使用します。
実験の結果,提案手法は100%の透かし検証精度でオーナシップの検証に成功した。
論文 参考訳(メタデータ) (2022-08-09T11:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。