論文の概要: TruncFormer: Private LLM Inference Using Only Truncations
- arxiv url: http://arxiv.org/abs/2412.01042v1
- Date: Mon, 02 Dec 2024 01:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:13.360075
- Title: TruncFormer: Private LLM Inference Using Only Truncations
- Title(参考訳): TruncFormer: トランケーションのみを用いたプライベートLLM推論
- Authors: Patrick Yubeaton, Jianqiao Cambridge Mo, Karthik Garimella, Nandan Kumar Jha, Brandon Reagen, Chinmay Hegde, Siddharth Garg,
- Abstract要約: プライベート推論(PI)は、ユーザデータのプライバシを保証する上で重要な役割を果たす。
PIは、機械学習モデルにおける非線形関数に関連する膨大なレイテンシコストのために、事実上難解なままである。
TruncFormerは、任意の機械学習モデルを取得し、それをPIのプレーンテキストエミュレーションに変換するためのフレームワークである。
- 参考スコア(独自算出の注目度): 20.477495294254997
- License:
- Abstract: Private inference (PI) serves an important role in guaranteeing the privacy of user data when interfacing with proprietary machine learning models such as LLMs. However, PI remains practically intractable due to the massive latency costs associated with nonlinear functions present in LLMs. Existing works have focused on improving latency of specific LLM nonlinearities (such as the Softmax, or the GeLU) via approximations. However, new types of nonlinearities are regularly introduced with new LLM architectures, and this has led to a constant game of catch-up where PI researchers attempt to optimize the newest nonlinear function. We introduce TruncFormer, a framework for taking any LLM and transforming it into a plaintext emulation of PI. Our framework leverages the fact that nonlinearities in LLMs are differentiable and can be accurately approximated with a sequence of additions, multiplications, and truncations. Further, we decouple the add/multiply and truncation operations, and statically determine where truncations should be inserted based on a given field size and input representation size. This leads to latency improvements over existing cryptographic protocols that enforce truncation after every multiplication operation. We open source our code for community use.
- Abstract(参考訳): プライベート推論(PI)は、LLMのようなプロプライエタリな機械学習モデルと対話する際に、ユーザデータのプライバシを保証する上で重要な役割を果たす。
しかし、LLMの非線形関数に付随する膨大な遅延コストのため、PIは事実上難易度を保ち続けている。
既存の研究は、近似を用いて特定のLCM非線形性(SoftmaxやGeLUなど)の遅延を改善することに重点を置いている。
しかし、新しいタイプの非線形性は、新しいLLMアーキテクチャで定期的に導入され、PI研究者が最新の非線形関数を最適化しようとするキャッチアップゲームに繋がった。
本稿では,任意の LLM を PI の平文エミュレーションに変換するフレームワークである TruncFormer を紹介する。
我々の枠組みは, LLMの非線形性は微分可能であり, 加算, 乗算, トランケーションの列で正確に近似できるという事実を活用する。
さらに、加算/乗算演算と減算演算を分離し、与えられたフィールドサイズと入力表現サイズに基づいて、減算を挿入すべき場所を静的に決定する。
これにより、乗算操作毎にトランケーションを強制する既存の暗号プロトコルよりもレイテンシが向上する。
コミュニティ利用のためのコードをオープンソースにしています。
関連論文リスト
- NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs [21.975885198257664]
エッジデバイスにデプロイされる大規模言語モデル(LLM)は、限られたリソース制約の下でユーザ生成データからモデルパラメータを微調整する必要がある。
既存の学習手法の多くは、高いリソースと低い学習能力に依存しているため、エッジLLMには適用できない。
我々は新しいNVCiM支援PTフレームワークを導入し、コア演算を行列行列乗法に絞り込む。
論文 参考訳(メタデータ) (2024-11-12T23:43:20Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。