論文の概要: TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment
- arxiv url: http://arxiv.org/abs/2404.11121v1
- Date: Wed, 17 Apr 2024 07:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:55:00.631017
- Title: TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment
- Title(参考訳): TransLinkGuard: エッジデプロイメントにおけるモデルステアリングに対するトランスフォーマーモデルの保護
- Authors: Qinfeng Li, Zhiqiang Shen, Zhenghan Qin, Yangfan Xie, Xuhong Zhang, Tianyu Du, Jianwei Yin,
- Abstract要約: エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護手法であるTransLinkGuardを提案する。
TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。
大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
- 参考スコア(独自算出の注目度): 34.8682729537795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proprietary large language models (LLMs) have been widely applied in various scenarios. Additionally, deploying LLMs on edge devices is trending for efficiency and privacy reasons. However, edge deployment of proprietary LLMs introduces new security challenges: edge-deployed models are exposed as white-box accessible to users, enabling adversaries to conduct effective model stealing (MS) attacks. Unfortunately, existing defense mechanisms fail to provide effective protection. Specifically, we identify four critical protection properties that existing methods fail to simultaneously satisfy: (1) maintaining protection after a model is physically copied; (2) authorizing model access at request level; (3) safeguarding runtime reverse engineering; (4) achieving high security with negligible runtime overhead. To address the above issues, we propose TransLinkGuard, a plug-and-play model protection approach against model stealing on edge devices. The core part of TransLinkGuard is a lightweight authorization module residing in a secure environment, e.g., TEE. The authorization module can freshly authorize each request based on its input. Extensive experiments show that TransLinkGuard achieves the same security protection as the black-box security guarantees with negligible overhead.
- Abstract(参考訳): プロプライエタリな大規模言語モデル (LLM) は様々なシナリオで広く適用されている。
さらに、エッジデバイスにLLMをデプロイすることは、効率性とプライバシの理由からトレンドになっている。
エッジデプロイされたモデルは、ユーザがアクセス可能なホワイトボックスとして公開され、敵が効果的なモデル盗難(MS)攻撃を実行できる。
残念ながら、既存の防御機構は効果的な保護を提供していない。
具体的には、(1)モデルが物理的にコピーされた後に保護を維持すること、(2)要求レベルでモデルアクセスを認可すること、(3)ランタイムのリバースエンジニアリングを保護すること、(4)無視できないランタイムオーバーヘッドで高いセキュリティを達成すること、の4つの重要な保護特性を同時に満たさないものを特定する。
上記の問題に対処するため,エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護アプローチであるTransLinkGuardを提案する。
TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。
認証モジュールは、その入力に基づいて、各要求を新たに認可することができる。
大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
関連論文リスト
- Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models [15.900125475191958]
大規模言語モデル(LLM)のコンテンツモデレーションのための安全アライメントの代替としてガードレールが登場した。
LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。
LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法より優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。
論文 参考訳(メタデータ) (2024-07-03T10:38:40Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - PRP: Propagating Universal Perturbations to Attack Large Language Model
Guard-Rails [26.090757124460552]
大規模言語モデル(LLM)は通常、人間に無害であるように整列される。
近年の研究では、このようなモデルが、有害なコンテンツを生成するよう誘導する自動ジェイルブレイク攻撃の影響を受けやすいことが示されている。
私たちの重要な貢献は、新しい攻撃戦略であるRPPを示すことです。これは、いくつかのオープンソース(例えば、Llama 2)とGPT 3.5)実装のクローズドソース(例えば、GPT 3.5)に対して成功したものです。
論文 参考訳(メタデータ) (2024-02-24T21:27:13Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z) - Protecting Semantic Segmentation Models by Using Block-wise Image
Encryption with Secret Key from Unauthorized Access [13.106063755117399]
秘密鍵を用いたブロックワイズ変換を利用して,セマンティックセグメンテーションモデルを不正アクセスから保護することを提案する。
実験の結果,提案手法により,適切なキーを持つ適切なユーザに対して,モデルにフル容量でアクセスし,不正ユーザの性能を低下させることができることがわかった。
論文 参考訳(メタデータ) (2021-07-20T09:31:15Z) - Passport-aware Normalization for Deep Model Protection [122.61289882357022]
深層学習モデルのためのパスポート対応正規化定式化を提案する。
IP保護のために別のパスポート対応ブランチを追加する必要がある。
微調整やモデル圧縮といった一般的な攻撃技術だけでなく、あいまいな攻撃にも堅牢であることが示されている。
論文 参考訳(メタデータ) (2020-10-29T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。