論文の概要: FastQuery: Communication-efficient Embedding Table Query for Private LLM Inference
- arxiv url: http://arxiv.org/abs/2405.16241v1
- Date: Sat, 25 May 2024 13:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 22:17:06.281275
- Title: FastQuery: Communication-efficient Embedding Table Query for Private LLM Inference
- Title(参考訳): FastQuery: プライベートLLM推論のための通信効率のよい埋め込みテーブルクエリ
- Authors: Chenqi Lin, Tianshi Xu, Zebin Yang, Runsheng Wang, Ru Huang, Meng Li,
- Abstract要約: 我々はFastQueryと呼ばれるプライベートな埋め込みテーブルクエリ最適化フレームワークを提案する。
FastQueryは通信対応の埋め込みテーブル量子化アルゴリズムと1ホット対応の高密度パッキングアルゴリズムを備えている。
従来のHEベースのフレームワークと比較して、FastQueryは、それぞれ4.3times$、2.7times$、1.3times$遅延削減を達成した。
- 参考スコア(独自算出の注目度): 3.9340847245305732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the fast evolution of large language models (LLMs), privacy concerns with user queries arise as they may contain sensitive information. Private inference based on homomorphic encryption (HE) has been proposed to protect user query privacy. However, a private embedding table query has to be formulated as a HE-based matrix-vector multiplication problem and suffers from enormous computation and communication overhead. We observe the overhead mainly comes from the neglect of 1) the one-hot nature of user queries and 2) the robustness of the embedding table to low bit-width quantization noise. Hence, in this paper, we propose a private embedding table query optimization framework, dubbed FastQuery. FastQuery features a communication-aware embedding table quantization algorithm and a one-hot-aware dense packing algorithm to simultaneously reduce both the computation and communication costs. Compared to prior-art HE-based frameworks, e.g., Cheetah, Iron, and Bumblebee, FastQuery achieves more than $4.3\times$, $2.7\times$, $1.3\times$ latency reduction, respectively and more than $75.7\times$, $60.2\times$, $20.2\times$ communication reduction, respectively, on both LLAMA-7B and LLAMA-30B.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化により、ユーザクエリに対するプライバシの懸念が生じる。
ユーザクエリのプライバシを保護するため,同型暗号化(HE)に基づくプライベート推論が提案されている。
しかし、プライベートな埋め込みテーブルクエリはHEベースの行列ベクトル乗算問題として定式化され、膨大な計算と通信オーバーヘッドに悩まされる。
私たちは、主に無視から生じるオーバーヘッドを観察します。
1) ユーザクエリとユーザクエリの1ホットな性質
2) 埋め込みテーブルの低ビット幅量子化雑音に対する堅牢性
そこで本稿では,FastQueryと呼ばれる,プライベートな埋め込みテーブルクエリ最適化フレームワークを提案する。
FastQueryは、通信対応の埋め込みテーブル量子化アルゴリズムと、計算コストと通信コストの両方を同時に削減する1ホット対応の高密度パッキングアルゴリズムを備えている。
従来のHEベースのフレームワークであるeg、Cheetah、Iron、Bumblebeeと比較して、FastQueryはLLAMA-7BとLLAMA-30Bでそれぞれ4.3\times$、2.7\times$、1.3\times$遅延削減、75.7\times$、60.2\times$、20.2\times$通信削減をそれぞれ達成している。
関連論文リスト
- Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。
提案手法は意味論的に類似した質問を効果的に識別し,大規模言語モデルに対する冗長なAPI呼び出しを伴わずに,事前生成応答の検索を可能にする。
この技術は運用コストを削減し、応答時間を短縮し、LCMを利用したアプリケーションの効率を向上させる。
論文 参考訳(メタデータ) (2024-11-08T02:21:19Z) - Differential Privacy of Cross-Attention with Provable Guarantee [18.331374727331077]
我々は,クロスアテンションのプライバシセキュリティに理論的保証を与えるために,新たな差分プライバシ(DP)データ構造を設計する。
我々の結果は、ユーザが意図的にクロスアテンションシステムに攻撃できる適応的なクエリに対して堅牢である。
論文 参考訳(メタデータ) (2024-07-20T01:02:27Z) - Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning [31.972053219549757]
TREACLEは、ユーザの金銭的コストとレイテンシの制約を尊重しながら、モデルとプロンプトスキームを共同で選択する強化学習ポリシーである。
評価の結果,TREACLEはベースラインに比べて最大85%のコスト削減が可能であり,精度は高いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T05:56:49Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Robust Approximation Algorithms for Non-monotone $k$-Submodular
Maximization under a Knapsack Constraint [0.0]
2つの決定論的近似アルゴリズムは、knapsack制約の下での非単調な$k$-部分モジュラー複雑性の問題に対して提案される。
提案アルゴリズムは,非単調な目的に対して,O(nk)$クエリの計算量内で一定の近似比を提供する。
論文 参考訳(メタデータ) (2023-09-21T12:42:52Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Private Query Release via the Johnson-Lindenstrauss Transform [93.20051580730234]
差分プライバシーを持つ統計的クエリに対する回答を解放する新しい手法を提案する。
鍵となる考え方は、クエリの回答を低次元空間にランダムに投影することである。
単純なノイズ付加機構を用いて予測されたクエリに回答し、元の次元まで答えを引き上げます。
論文 参考訳(メタデータ) (2022-08-15T19:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。