論文の概要: A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage
- arxiv url: http://arxiv.org/abs/2409.04040v1
- Date: Fri, 6 Sep 2024 06:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:48:15.953878
- Title: A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage
- Title(参考訳): KVリークに対する高効率でセキュアなLCM推論
- Authors: Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu,
- Abstract要約: KV-Shieldがプライバシーに敏感な中間情報の漏洩を防ぐ方法を示す。
FHEのような既存のソリューションは、過度に集約的かリソース制限的である。
理論的には、KV-Shieldの正しさと、その利点とオーバーヘッドを解析する。
- 参考スコア(独自算出の注目度): 18.072922056746332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running LLMs on end devices has garnered significant attention recently due to their advantages in privacy preservation. With the advent of lightweight LLM models and specially designed GPUs, on-device LLM inference has achieved the necessary accuracy and performance metrics. However, we have identified that LLM inference on GPUs can leak privacy-sensitive intermediate information, specifically the KV pairs. An attacker could exploit these KV pairs to reconstruct the entire user conversation, leading to significant vulnerabilities. Existing solutions, such as Fully Homomorphic Encryption (FHE) and Trusted Execution Environments (TEE), are either too computation-intensive or resource-limited. To address these issues, we designed KV-Shield, which operates in two phases. In the initialization phase, it permutes the weight matrices so that all KV pairs are correspondingly permuted. During the runtime phase, the attention vector is inversely permuted to ensure the correctness of the layer output. All permutation-related operations are executed within the TEE, ensuring that insecure GPUs cannot access the original KV pairs, thus preventing conversation reconstruction. Finally, we theoretically analyze the correctness of KV-Shield, along with its advantages and overhead.
- Abstract(参考訳): エンドデバイス上でのLSMの実行は、プライバシー保護のアドバンテージにより、近年大きな注目を集めている。
軽量なLLMモデルと特別に設計されたGPUの出現により、オンデバイスLSM推論は必要な精度と性能のメトリクスを達成した。
しかし、GPU上でのLCM推論は、プライバシーに敏感な中間情報、特にKVペアを漏洩させる可能性がある。
攻撃者はこれらのKVペアを利用してユーザ会話全体を再構築し、重大な脆弱性を発生させる。
FHE(Fully Homomorphic Encryption)やTEE(Trusted Execution Environments)といった既存のソリューションは、計算集約的すぎるかリソース限定的である。
これらの問題に対処するため、我々は2つのフェーズで動作するKV-Shieldを設計した。
初期化段階では、全てのKV対が対応するように重み行列を置換する。
実行時フェーズにおいて、アテンションベクトルは、層出力の正確性を保証するために逆順に置換される。
すべての置換関連操作はTEE内で実行され、セキュアでないGPUが元のKVペアにアクセスできないことを保証するため、会話の再構成が防止される。
最後に、KV-Shieldの正しさと、その利点とオーバーヘッドを理論的に解析する。
関連論文リスト
- Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads [50.03039827389727]
本研究では,異種コンテキスト分割を異なるアテンションヘッドに割り当てて分割・征服するアテンションアルゴリズムであるSparsely-Sharded (S2)アテンションを提案する。
S2-Attentionは、各アテンションヘッドを強化されたスパーシティパターンに従ってコンテキストの分割にのみ参加するように強制する一方、フルコンテキストはすべてのシャードの結合として保存される。
S2-Attentioncan は,(1) 壁面の注意速度を FlashAttention-2 より25.3倍に向上し,エンドツーエンドのトレーニング時間と10倍の推論遅延を6倍短縮することを示した。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - TensorTEE: Unifying Heterogeneous TEE Granularity for Efficient Secure Collaborative Tensor Computing [13.983627699836376]
既存の異種TEE設計は、CPUとNPU間のメモリの粒度が微妙で異なるため、協調コンピューティングでは非効率である。
安全な協調計算のための統合テンソル・グラニュラリティ異種TEEを提案する。
その結果、TEEは、既存の作業と比べて、Large Language Model(LLM)トレーニングワークロードのパフォーマンスを4.0倍改善していることがわかった。
論文 参考訳(メタデータ) (2024-07-12T00:35:18Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - KV-Runahead: Scalable Causal LLM Inference by Parallel Key-Value Cache Generation [20.98447775598288]
大規模言語モデル(LLM)推論は、プロンプト(またはプリフィル)フェーズと拡張(またはデコード)フェーズの2つのフェーズを持つ。
本稿では,プロンプト位相を高速化する効率的な並列化手法KV-Runaheadを提案する。
我々は、KV-RunaheadがそれぞれLlama 7BとFalcon 7Bの1.4倍と1.6倍のスピードアップを提供できることを示した。
論文 参考訳(メタデータ) (2024-05-08T18:03:22Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
量子化はKVキャッシュアクティベーションを圧縮するための有望なアプローチである。
KVアクティベーションを定量化する新しい手法を取り入れたKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。