論文の概要: A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage
- arxiv url: http://arxiv.org/abs/2409.04040v1
- Date: Fri, 6 Sep 2024 06:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:48:15.953878
- Title: A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage
- Title(参考訳): KVリークに対する高効率でセキュアなLCM推論
- Authors: Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu,
- Abstract要約: KV-Shieldがプライバシーに敏感な中間情報の漏洩を防ぐ方法を示す。
FHEのような既存のソリューションは、過度に集約的かリソース制限的である。
理論的には、KV-Shieldの正しさと、その利点とオーバーヘッドを解析する。
- 参考スコア(独自算出の注目度): 18.072922056746332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running LLMs on end devices has garnered significant attention recently due to their advantages in privacy preservation. With the advent of lightweight LLM models and specially designed GPUs, on-device LLM inference has achieved the necessary accuracy and performance metrics. However, we have identified that LLM inference on GPUs can leak privacy-sensitive intermediate information, specifically the KV pairs. An attacker could exploit these KV pairs to reconstruct the entire user conversation, leading to significant vulnerabilities. Existing solutions, such as Fully Homomorphic Encryption (FHE) and Trusted Execution Environments (TEE), are either too computation-intensive or resource-limited. To address these issues, we designed KV-Shield, which operates in two phases. In the initialization phase, it permutes the weight matrices so that all KV pairs are correspondingly permuted. During the runtime phase, the attention vector is inversely permuted to ensure the correctness of the layer output. All permutation-related operations are executed within the TEE, ensuring that insecure GPUs cannot access the original KV pairs, thus preventing conversation reconstruction. Finally, we theoretically analyze the correctness of KV-Shield, along with its advantages and overhead.
- Abstract(参考訳): エンドデバイス上でのLSMの実行は、プライバシー保護のアドバンテージにより、近年大きな注目を集めている。
軽量なLLMモデルと特別に設計されたGPUの出現により、オンデバイスLSM推論は必要な精度と性能のメトリクスを達成した。
しかし、GPU上でのLCM推論は、プライバシーに敏感な中間情報、特にKVペアを漏洩させる可能性がある。
攻撃者はこれらのKVペアを利用してユーザ会話全体を再構築し、重大な脆弱性を発生させる。
FHE(Fully Homomorphic Encryption)やTEE(Trusted Execution Environments)といった既存のソリューションは、計算集約的すぎるかリソース限定的である。
これらの問題に対処するため、我々は2つのフェーズで動作するKV-Shieldを設計した。
初期化段階では、全てのKV対が対応するように重み行列を置換する。
実行時フェーズにおいて、アテンションベクトルは、層出力の正確性を保証するために逆順に置換される。
すべての置換関連操作はTEE内で実行され、セキュアでないGPUが元のKVペアにアクセスできないことを保証するため、会話の再構成が防止される。
最後に、KV-Shieldの正しさと、その利点とオーバーヘッドを理論的に解析する。
関連論文リスト
- RobustKV: Defending Large Language Models against Jailbreak Attacks via KV Eviction [17.6292185342136]
本稿では,脱獄プロンプトの効果を緩和するための新しいアプローチを提案する。
キーバリューキャッシュから有害なクエリのクリティカルトークンを選択的に削除する。
LLMの良質なクエリに対する一般的なパフォーマンスを維持しながら、最先端のjailbreak攻撃を効果的に阻止する。
論文 参考訳(メタデータ) (2024-10-25T19:18:22Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。
観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。
これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - KV-Runahead: Scalable Causal LLM Inference by Parallel Key-Value Cache Generation [20.98447775598288]
大規模言語モデル(LLM)推論は、プロンプト(またはプリフィル)フェーズと拡張(またはデコード)フェーズの2つのフェーズを持つ。
本稿では,プロンプト位相を高速化する効率的な並列化手法KV-Runaheadを提案する。
我々は、KV-RunaheadがそれぞれLlama 7BとFalcon 7Bの1.4倍と1.6倍のスピードアップを提供できることを示した。
論文 参考訳(メタデータ) (2024-05-08T18:03:22Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。