論文の概要: $δ$-STEAL: LLM Stealing Attack with Local Differential Privacy
- arxiv url: http://arxiv.org/abs/2510.21946v1
- Date: Fri, 24 Oct 2025 18:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.708297
- Title: $δ$-STEAL: LLM Stealing Attack with Local Differential Privacy
- Title(参考訳): $δ$-STEAL: ローカル差分プライバシによるLLMステアリング攻撃
- Authors: Kieu Dang, Phung Lai, NhatHai Phan, Yelong Shen, Ruoming Jin, Abdallah Khreishah,
- Abstract要約: 我々は、相手のモデルユーティリティを保ちながら、サービス提供者の透かし検出器をバイパスするモデル盗難攻撃である$delta$-STEALを紹介します。
実験の結果、$delta$-STEALは敵のモデルユーティリティを著しく損なうことなく、最大9,6.95%の攻撃成功率を達成することがわかった。
- 参考スコア(独自算出の注目度): 24.88863537562324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable capabilities across various tasks. However, their deployment introduces significant risks related to intellectual property. In this context, we focus on model stealing attacks, where adversaries replicate the behaviors of these models to steal services. These attacks are highly relevant to proprietary LLMs and pose serious threats to revenue and financial stability. To mitigate these risks, the watermarking solution embeds imperceptible patterns in LLM outputs, enabling model traceability and intellectual property verification. In this paper, we study the vulnerability of LLM service providers by introducing $\delta$-STEAL, a novel model stealing attack that bypasses the service provider's watermark detectors while preserving the adversary's model utility. $\delta$-STEAL injects noise into the token embeddings of the adversary's model during fine-tuning in a way that satisfies local differential privacy (LDP) guarantees. The adversary queries the service provider's model to collect outputs and form input-output training pairs. By applying LDP-preserving noise to these pairs, $\delta$-STEAL obfuscates watermark signals, making it difficult for the service provider to determine whether its outputs were used, thereby preventing claims of model theft. Our experiments show that $\delta$-STEAL with lightweight modifications achieves attack success rates of up to $96.95\%$ without significantly compromising the adversary's model utility. The noise scale in LDP controls the trade-off between attack effectiveness and model utility. This poses a significant risk, as even robust watermarks can be bypassed, allowing adversaries to deceive watermark detectors and undermine current intellectual property protection methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。
しかし、その展開は知的財産に関する重大なリスクをもたらす。
この文脈では、モデルを盗む攻撃に焦点を合わせ、敵がこれらのモデルの振る舞いを複製してサービスを盗む。
これらの攻撃はプロプライエタリなLLMと非常に関係があり、収益と金融安定に深刻な脅威をもたらす。
これらのリスクを軽減するため、透かしソリューションはLLM出力に認識不能なパターンを埋め込み、モデルトレーサビリティと知的財産の検証を可能にする。
本稿では, LLM サービスプロバイダの脆弱性を, 相手のモデルユーティリティを保ちながら, サービスプロバイダの透かし検出器をバイパスする, 新たなモデル盗難攻撃である $\delta$-STEAL を導入して検討する。
$\delta$-STEALは、ローカルディファレンシャルプライバシ(LDP)の保証を満たす方法で、微調整中に、相手モデルのトークン埋め込みにノイズを注入する。
相手はサービスプロバイダのモデルをクエリしてアウトプットを収集し、インプット・アウトプットのトレーニングペアを形成する。
これらのペアにLDP保存ノイズを適用することで、$\delta$-STEALは透かし信号を難なくし、サービスプロバイダが出力が使用されているかどうかを判断し、モデル盗難の請求を防止できる。
実験の結果, 軽量改造による$\delta$-STEALは, 相手のモデルユーティリティを著しく損なうことなく, 最大9,6.95 %の攻撃成功率が得られることがわかった。
LDPのノイズスケールは、攻撃効率とモデルユーティリティのトレードオフを制御する。
このことは、堅牢な透かしでさえバイパスでき、敵が透かし検知器を騙し、現在の知的財産保護法を弱めることができるという重大なリスクをもたらす。
関連論文リスト
- On Protecting Agentic Systems' Intellectual Property via Watermarking [17.334130453604313]
AgentWMはエージェントモデル用に設計された最初の透かしフレームワークである。
AgentWMは、機能的に同一のツール実行パスの分布を微妙にバイアスすることで、アクションシーケンスのセマンティックな等価性を利用して、透かしを注入する。
我々は,エージェントIPを適応的敵に対して効果的に保護できることを確認した。
論文 参考訳(メタデータ) (2026-02-09T09:02:15Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection [9.849635250118913]
大型言語モデル(LLM)は、正当な所有者にとって価値のある知的特性(IP)と見なされている。
我々は、ブラックボックス設定オーナシップ検証のための新しい$textbfDu$al-Level $textbfFin$gerprinting $textbfF$rameworkであるDuFFinを提案する。
論文 参考訳(メタデータ) (2025-05-22T11:16:46Z) - AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection [26.066755429896926]
バックドアの透かしとしてOoD(Out-of-Distribution)データを選択し、著作権保護のためにオリジナルのモデルを再訓練する。
既存の方法は、敵による悪意のある検出と偽造を受けやすいため、透かしの回避につながる。
マルチモーダルモデル著作権保護におけるステルスネスとロバストネスの課題に対処するために,モデル-アンダーラインに依存しないブラックボックスのバックドアWunderlineatermarking Framework (AGATE)を提案する。
論文 参考訳(メタデータ) (2025-04-28T14:52:01Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Who Leaked the Model? Tracking IP Infringers in Accountable Federated Learning [51.26221422507554]
Federated Learning (FL) は、大規模で分散したクライアントからのデータと計算リソースを調整する効果的な協調学習フレームワークである。
このようなコラボレーションは、個々のユーザではなく、パーティー全体によって保護され、共有されるべきモデルパラメータによって表現される非自明な知的財産(IP)をもたらす。
このようなIPリークをブロックするためには、IPを共有モデルで識別し、最初にリークした匿名の侵害者を特定することが不可欠である。
本稿では,説明責任FLの要件を満たすために,Dudeable Unique Watermarking (DUW)を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:47:55Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model [0.0]
本稿では,モデル分類モジュールを置換し,モデル全体の微調整を行う新たな脅威を提案する。
私たちは、盗難の所有権ステートメントを防ぐために、タンパー保護やトレーサビリティといったブロックチェーンの特性を使用します。
実験の結果,提案手法は100%の透かし検証精度でオーナシップの検証に成功した。
論文 参考訳(メタデータ) (2022-08-09T11:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。