論文の概要: TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment
- arxiv url: http://arxiv.org/abs/2404.11121v1
- Date: Wed, 17 Apr 2024 07:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:55:00.631017
- Title: TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment
- Title(参考訳): TransLinkGuard: エッジデプロイメントにおけるモデルステアリングに対するトランスフォーマーモデルの保護
- Authors: Qinfeng Li, Zhiqiang Shen, Zhenghan Qin, Yangfan Xie, Xuhong Zhang, Tianyu Du, Jianwei Yin,
- Abstract要約: エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護手法であるTransLinkGuardを提案する。
TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。
大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
- 参考スコア(独自算出の注目度): 34.8682729537795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proprietary large language models (LLMs) have been widely applied in various scenarios. Additionally, deploying LLMs on edge devices is trending for efficiency and privacy reasons. However, edge deployment of proprietary LLMs introduces new security challenges: edge-deployed models are exposed as white-box accessible to users, enabling adversaries to conduct effective model stealing (MS) attacks. Unfortunately, existing defense mechanisms fail to provide effective protection. Specifically, we identify four critical protection properties that existing methods fail to simultaneously satisfy: (1) maintaining protection after a model is physically copied; (2) authorizing model access at request level; (3) safeguarding runtime reverse engineering; (4) achieving high security with negligible runtime overhead. To address the above issues, we propose TransLinkGuard, a plug-and-play model protection approach against model stealing on edge devices. The core part of TransLinkGuard is a lightweight authorization module residing in a secure environment, e.g., TEE. The authorization module can freshly authorize each request based on its input. Extensive experiments show that TransLinkGuard achieves the same security protection as the black-box security guarantees with negligible overhead.
- Abstract(参考訳): プロプライエタリな大規模言語モデル (LLM) は様々なシナリオで広く適用されている。
さらに、エッジデバイスにLLMをデプロイすることは、効率性とプライバシの理由からトレンドになっている。
エッジデプロイされたモデルは、ユーザがアクセス可能なホワイトボックスとして公開され、敵が効果的なモデル盗難(MS)攻撃を実行できる。
残念ながら、既存の防御機構は効果的な保護を提供していない。
具体的には、(1)モデルが物理的にコピーされた後に保護を維持すること、(2)要求レベルでモデルアクセスを認可すること、(3)ランタイムのリバースエンジニアリングを保護すること、(4)無視できないランタイムオーバーヘッドで高いセキュリティを達成すること、の4つの重要な保護特性を同時に満たさないものを特定する。
上記の問題に対処するため,エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護アプローチであるTransLinkGuardを提案する。
TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。
認証モジュールは、その入力に基づいて、各要求を新たに認可することができる。
大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
関連論文リスト
- CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [43.53211005936295]
CoreGuardは、エッジデバイス上でのモデル盗難に対する、計算と通信効率のよいモデル保護アプローチである。
私たちは、CoreGuardがブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成していることを示します。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Safeguard is a Double-edged Sword: Denial-of-service Attack on Large Language Models [7.013820690538764]
大規模言語モデル(LLM)に対する新たなDoS攻撃を提案する。
ソフトウェアやフィッシング攻撃によって、攻撃者は短い、一見無害な敵のプロンプトを設定ファイルのユーザープロンプトに挿入する。
我々の攻撃は、Llama Guard 3の97%以上のユーザリクエストを普遍的にブロックする、約30文字の、一見安全な敵のプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2024-10-03T19:07:53Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - Protecting Semantic Segmentation Models by Using Block-wise Image
Encryption with Secret Key from Unauthorized Access [13.106063755117399]
秘密鍵を用いたブロックワイズ変換を利用して,セマンティックセグメンテーションモデルを不正アクセスから保護することを提案する。
実験の結果,提案手法により,適切なキーを持つ適切なユーザに対して,モデルにフル容量でアクセスし,不正ユーザの性能を低下させることができることがわかった。
論文 参考訳(メタデータ) (2021-07-20T09:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。