Fugu-MT 論文翻訳(概要): A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage

論文の概要: A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage

arxiv url: http://arxiv.org/abs/2409.04040v1
Date: Fri, 6 Sep 2024 06:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 16:48:15.953878
Title: A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage
Title（参考訳）: KVリークに対する高効率でセキュアなLCM推論
Authors: Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu,
Abstract要約: KV-Shieldがプライバシーに敏感な中間情報の漏洩を防ぐ方法を示す。 FHEのような既存のソリューションは、過度に集約的かリソース制限的である。理論的には、KV-Shieldの正しさと、その利点とオーバーヘッドを解析する。
参考スコア（独自算出の注目度）: 18.072922056746332
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Running LLMs on end devices has garnered significant attention recently due to their advantages in privacy preservation. With the advent of lightweight LLM models and specially designed GPUs, on-device LLM inference has achieved the necessary accuracy and performance metrics. However, we have identified that LLM inference on GPUs can leak privacy-sensitive intermediate information, specifically the KV pairs. An attacker could exploit these KV pairs to reconstruct the entire user conversation, leading to significant vulnerabilities. Existing solutions, such as Fully Homomorphic Encryption (FHE) and Trusted Execution Environments (TEE), are either too computation-intensive or resource-limited. To address these issues, we designed KV-Shield, which operates in two phases. In the initialization phase, it permutes the weight matrices so that all KV pairs are correspondingly permuted. During the runtime phase, the attention vector is inversely permuted to ensure the correctness of the layer output. All permutation-related operations are executed within the TEE, ensuring that insecure GPUs cannot access the original KV pairs, thus preventing conversation reconstruction. Finally, we theoretically analyze the correctness of KV-Shield, along with its advantages and overhead.
Abstract（参考訳）: エンドデバイス上でのLSMの実行は、プライバシー保護のアドバンテージにより、近年大きな注目を集めている。軽量なLLMモデルと特別に設計されたGPUの出現により、オンデバイスLSM推論は必要な精度と性能のメトリクスを達成した。しかし、GPU上でのLCM推論は、プライバシーに敏感な中間情報、特にKVペアを漏洩させる可能性がある。攻撃者はこれらのKVペアを利用してユーザ会話全体を再構築し、重大な脆弱性を発生させる。 FHE(Fully Homomorphic Encryption)やTEE(Trusted Execution Environments)といった既存のソリューションは、計算集約的すぎるかリソース限定的である。これらの問題に対処するため、我々は2つのフェーズで動作するKV-Shieldを設計した。初期化段階では、全てのKV対が対応するように重み行列を置換する。実行時フェーズにおいて、アテンションベクトルは、層出力の正確性を保証するために逆順に置換される。すべての置換関連操作はTEE内で実行され、セキュアでないGPUが元のKVペアにアクセスできないことを保証するため、会話の再構成が防止される。最後に、KV-Shieldの正しさと、その利点とオーバーヘッドを理論的に解析する。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
Breaking the Boundaries of Long-Context LLM Inference: Adaptive KV Management on a Single Commodity GPU [23.168435940997664]
本稿では,1つのコモディティGPUのためのLLM推論システムLeoAMについて述べる。我々のシステムは,KVデータを可変サイズのチャンクに分割する適応的なKV管理戦略を採用している。また,全KVデータではなく,ディスク上の各チャンクのKV抽象を格納・抽出することで,伝送遅延を最小限に抑える軽量なKV抽象手法を提案する。
論文参考訳（メタデータ） (2025-06-25T07:26:42Z)
CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention [26.54297116028556]
大規模言語モデル(LLM)は、長いシーケンスや複雑な推論タスクの処理において顕著な可能性を示している。 LServeは,ハイブリッドスパースアテンションにより長周期LLMサービスを高速化する,効率的なシステムである。 LServeはLLMプリフィルを最大2.9倍加速し、vLLMで1.3-2.1倍デコードする。
論文参考訳（メタデータ） (2025-02-20T18:59:52Z)
Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文参考訳（メタデータ） (2025-02-20T18:50:42Z)
Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。 Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文参考訳（メタデータ） (2025-02-19T08:50:44Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
MiniKV: Pushing the Limits of LLM Inference via 2-Bit Layer-Discriminative KV Cache [17.58398289266989]
Mini KVは、KVキャッシュサイズを大幅に削減しつつ、長時間のコンテキストタスクの精度を同時に保持するKVキャッシュ最適化手法である。我々は,Mini KVが86%のKVキャッシュ圧縮比を実現し,98.5%以上の精度を回復し,最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-11-27T06:10:49Z)
RobustKV: Defending Large Language Models against Jailbreak Attacks via KV Eviction [17.6292185342136]
本稿では,脱獄プロンプトの効果を緩和するための新しいアプローチを提案する。キーバリューキャッシュから有害なクエリのクリティカルトークンを選択的に削除する。 LLMの良質なクエリに対する一般的なパフォーマンスを維持しながら、最先端のjailbreak攻撃を効果的に阻止する。
論文参考訳（メタデータ） (2024-10-25T19:18:22Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文参考訳（メタデータ） (2024-07-25T12:56:22Z)
Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-07-11T12:50:42Z)
Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文参考訳（メタデータ） (2024-06-11T08:37:33Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
KV-Runahead: Scalable Causal LLM Inference by Parallel Key-Value Cache Generation [20.98447775598288]
大規模言語モデル(LLM)推論は、プロンプト(またはプリフィル)フェーズと拡張(またはデコード)フェーズの2つのフェーズを持つ。本稿では,プロンプト位相を高速化する効率的な並列化手法KV-Runaheadを提案する。我々は、KV-RunaheadがそれぞれLlama 7BとFalcon 7Bの1.4倍と1.6倍のスピードアップを提供できることを示した。
論文参考訳（メタデータ） (2024-05-08T18:03:22Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。