論文の概要: TruncFormer: Private LLM Inference Using Only Truncations
- arxiv url: http://arxiv.org/abs/2412.01042v1
- Date: Mon, 02 Dec 2024 01:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.352132
- Title: TruncFormer: Private LLM Inference Using Only Truncations
- Title(参考訳): TruncFormer: トランケーションのみを用いたプライベートLLM推論
- Authors: Patrick Yubeaton, Jianqiao Cambridge Mo, Karthik Garimella, Nandan Kumar Jha, Brandon Reagen, Chinmay Hegde, Siddharth Garg,
- Abstract要約: プライベート推論(PI)は、ユーザデータのプライバシを保証する上で重要な役割を果たす。
PIは、機械学習モデルにおける非線形関数に関連する膨大なレイテンシコストのために、事実上難解なままである。
TruncFormerは、任意の機械学習モデルを取得し、それをPIのプレーンテキストエミュレーションに変換するためのフレームワークである。
- 参考スコア(独自算出の注目度): 20.477495294254997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Private inference (PI) serves an important role in guaranteeing the privacy of user data when interfacing with proprietary machine learning models such as LLMs. However, PI remains practically intractable due to the massive latency costs associated with nonlinear functions present in LLMs. Existing works have focused on improving latency of specific LLM nonlinearities (such as the Softmax, or the GeLU) via approximations. However, new types of nonlinearities are regularly introduced with new LLM architectures, and this has led to a constant game of catch-up where PI researchers attempt to optimize the newest nonlinear function. We introduce TruncFormer, a framework for taking any LLM and transforming it into a plaintext emulation of PI. Our framework leverages the fact that nonlinearities in LLMs are differentiable and can be accurately approximated with a sequence of additions, multiplications, and truncations. Further, we decouple the add/multiply and truncation operations, and statically determine where truncations should be inserted based on a given field size and input representation size. This leads to latency improvements over existing cryptographic protocols that enforce truncation after every multiplication operation. We open source our code for community use.
- Abstract(参考訳): プライベート推論(PI)は、LLMのようなプロプライエタリな機械学習モデルと対話する際に、ユーザデータのプライバシを保証する上で重要な役割を果たす。
しかし、LLMの非線形関数に付随する膨大な遅延コストのため、PIは事実上難易度を保ち続けている。
既存の研究は、近似を用いて特定のLCM非線形性(SoftmaxやGeLUなど)の遅延を改善することに重点を置いている。
しかし、新しいタイプの非線形性は、新しいLLMアーキテクチャで定期的に導入され、PI研究者が最新の非線形関数を最適化しようとするキャッチアップゲームに繋がった。
本稿では,任意の LLM を PI の平文エミュレーションに変換するフレームワークである TruncFormer を紹介する。
我々の枠組みは, LLMの非線形性は微分可能であり, 加算, 乗算, トランケーションの列で正確に近似できるという事実を活用する。
さらに、加算/乗算演算と減算演算を分離し、与えられたフィールドサイズと入力表現サイズに基づいて、減算を挿入すべき場所を静的に決定する。
これにより、乗算操作毎にトランケーションを強制する既存の暗号プロトコルよりもレイテンシが向上する。
コミュニティ利用のためのコードをオープンソースにしています。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs [21.975885198257664]
エッジデバイスにデプロイされる大規模言語モデル(LLM)は、限られたリソース制約の下でユーザ生成データからモデルパラメータを微調整する必要がある。
既存の学習手法の多くは、高いリソースと低い学習能力に依存しているため、エッジLLMには適用できない。
我々は新しいNVCiM支援PTフレームワークを導入し、コア演算を行列行列乗法に絞り込む。
論文 参考訳(メタデータ) (2024-11-12T23:43:20Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。