Fugu-MT 論文翻訳(概要): TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment

論文の概要: TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment

arxiv url: http://arxiv.org/abs/2404.11121v1
Date: Wed, 17 Apr 2024 07:08:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 14:55:00.631017
Title: TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment
Title（参考訳）: TransLinkGuard: エッジデプロイメントにおけるモデルステアリングに対するトランスフォーマーモデルの保護
Authors: Qinfeng Li, Zhiqiang Shen, Zhenghan Qin, Yangfan Xie, Xuhong Zhang, Tianyu Du, Jianwei Yin,
Abstract要約: エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護手法であるTransLinkGuardを提案する。 TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
参考スコア（独自算出の注目度）: 34.8682729537795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Proprietary large language models (LLMs) have been widely applied in various scenarios. Additionally, deploying LLMs on edge devices is trending for efficiency and privacy reasons. However, edge deployment of proprietary LLMs introduces new security challenges: edge-deployed models are exposed as white-box accessible to users, enabling adversaries to conduct effective model stealing (MS) attacks. Unfortunately, existing defense mechanisms fail to provide effective protection. Specifically, we identify four critical protection properties that existing methods fail to simultaneously satisfy: (1) maintaining protection after a model is physically copied; (2) authorizing model access at request level; (3) safeguarding runtime reverse engineering; (4) achieving high security with negligible runtime overhead. To address the above issues, we propose TransLinkGuard, a plug-and-play model protection approach against model stealing on edge devices. The core part of TransLinkGuard is a lightweight authorization module residing in a secure environment, e.g., TEE. The authorization module can freshly authorize each request based on its input. Extensive experiments show that TransLinkGuard achieves the same security protection as the black-box security guarantees with negligible overhead.
Abstract（参考訳）: プロプライエタリな大規模言語モデル (LLM) は様々なシナリオで広く適用されている。さらに、エッジデバイスにLLMをデプロイすることは、効率性とプライバシの理由からトレンドになっている。エッジデプロイされたモデルは、ユーザがアクセス可能なホワイトボックスとして公開され、敵が効果的なモデル盗難(MS)攻撃を実行できる。残念ながら、既存の防御機構は効果的な保護を提供していない。具体的には、(1)モデルが物理的にコピーされた後に保護を維持すること、(2)要求レベルでモデルアクセスを認可すること、(3)ランタイムのリバースエンジニアリングを保護すること、(4)無視できないランタイムオーバーヘッドで高いセキュリティを達成すること、の4つの重要な保護特性を同時に満たさないものを特定する。上記の問題に対処するため,エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護アプローチであるTransLinkGuardを提案する。 TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。認証モジュールは、その入力に基づいて、各要求を新たに認可することができる。大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。

関連論文リスト

ConfGuard: A Simple and Effective Backdoor Detection for Large Language Models [23.236088751922807]
バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす既存の防衛手法の多くは、主に分類タスクのために設計されており、自己回帰性やLLMの膨大な出力空間に対して効果がない。本稿では,トークンの信頼度をスライディングウィンドウに監視してシーケンスロックを識別する,軽量かつ効果的な検出手法ConfGuardを提案する。
論文参考訳（メタデータ） (2025-08-02T13:38:04Z)
Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
Zero-Trust Artificial Intelligence Model Security Based on Moving Target Defense and Content Disarm and Reconstruction [4.0208298639821525]
本稿では,モデル動物園とファイル転送機構を通じてAIモデルを配布する際の課題について検討する。モデルファイルの物理的なセキュリティは重要であり、厳格なアクセス制御とアタック防止ソリューションを必要とする。これは、既知のAIモデルリポジトリとHuggingFaceモデル動物園からの実際のマルウェア攻撃に対して検証されている間、100%の武装解除率を示す。
論文参考訳（メタデータ） (2025-03-03T17:32:19Z)
PersGuard: Preventing Malicious Personalization via Backdoor Attacks on Pre-trained Text-to-Image Diffusion Models [51.458089902581456]
特定の画像の悪質なパーソナライズを防ぐ新しいバックドアベースのアプローチであるPersGuardを紹介する。我々の手法は既存の技術よりも優れており、プライバシーと著作権保護に対するより堅牢なソリューションを提供する。
論文参考訳（メタデータ） (2025-02-22T09:47:55Z)
Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking [34.479355499938116]
大規模言語モデル(LLM)は、重要なアプリケーションをもたらすだけでなく、深刻なセキュリティ脅威も導入している。我々はAttackPrefixTree (APT)と呼ばれるブラックボックス攻撃フレームワークを導入する。 APTは構造化された出力インタフェースを利用して攻撃パターンを動的に構築する。ベンチマークデータセットの実験は、このアプローチが既存の手法よりも高い攻撃成功率を達成することを示している。
論文参考訳（メタデータ） (2025-02-19T08:29:36Z)
CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [43.53211005936295]
CoreGuardは、エッジデバイス上でのモデル盗難に対する、計算と通信効率のよいモデル保護アプローチである。私たちは、CoreGuardがブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成していることを示します。
論文参考訳（メタデータ） (2024-10-16T08:14:24Z)
Position: On-Premises LLM Deployment Demands a Middle Path: Preserving Privacy Without Sacrificing Model Confidentiality [18.575663556525864]
ユーザ制御インフラストラクチャにクローズドソース LLM をデプロイすることで、データのプライバシが向上し、誤用リスクを軽減できる、と我々は主張する。十分に設計されたオンプレミスデプロイメントでは、モデル盗難を防止することによって、モデルの機密性を保証し、プライバシ保護のカスタマイズを提供する必要がある。私たちの調査結果は、プライバシと機密性が共存可能であることを示し、オンプレミスのAIデプロイメントをセキュアにする方法を確立しました。
論文参考訳（メタデータ） (2024-10-15T02:00:36Z)
ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文参考訳（メタデータ） (2024-10-05T02:58:20Z)
Safeguard is a Double-edged Sword: Denial-of-service Attack on Large Language Models [7.013820690538764]
大規模言語モデル(LLM)に対する新たなDoS攻撃を提案する。ソフトウェアやフィッシング攻撃によって、攻撃者は短い、一見無害な敵のプロンプトを設定ファイルのユーザープロンプトに挿入する。我々の攻撃は、Llama Guard 3の97%以上のユーザリクエストを普遍的にブロックする、約30文字の、一見安全な敵のプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2024-10-03T19:07:53Z)
Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。 PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。 3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文参考訳（メタデータ） (2024-08-15T14:51:32Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができるウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-05-03T06:41:48Z)
AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-19T07:53:31Z)
Protecting Semantic Segmentation Models by Using Block-wise Image Encryption with Secret Key from Unauthorized Access [13.106063755117399]
秘密鍵を用いたブロックワイズ変換を利用して,セマンティックセグメンテーションモデルを不正アクセスから保護することを提案する。実験の結果,提案手法により,適切なキーを持つ適切なユーザに対して,モデルにフル容量でアクセスし,不正ユーザの性能を低下させることができることがわかった。
論文参考訳（メタデータ） (2021-07-20T09:31:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。