論文の概要: AERO: Softmax-Only LLMs for Efficient Private Inference
- arxiv url: http://arxiv.org/abs/2410.13060v2
- Date: Mon, 02 Dec 2024 21:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:18.069355
- Title: AERO: Softmax-Only LLMs for Efficient Private Inference
- Title(参考訳): AERO: 効率的なプライベート推論のためのソフトマックス専用LLM
- Authors: Nandan Kumar Jha, Brandon Reagen,
- Abstract要約: 本稿では,変換器を用いたデコーダのみの言語モデルにおける非線形性の役割を理解するための包括的解析を行う。
AEROは,既存のLLMアーキテクチャを改良した4段階アーキテクチャ最適化フレームワークである。
まず,効率のよい PI に適したFLOP が大幅に少ないSoftmax のみのアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.7802450241986945
- License:
- Abstract: The pervasiveness of proprietary language models has raised privacy concerns for users' sensitive data, emphasizing the need for private inference (PI), where inference is performed directly on encrypted inputs. However, current PI methods face prohibitively higher communication and latency overheads, primarily due to nonlinear operations. In this paper, we present a comprehensive analysis to understand the role of nonlinearities in transformer-based decoder-only language models. We introduce AERO, a four-step architectural optimization framework that refines the existing LLM architecture for efficient PI by systematically removing nonlinearities such as LayerNorm and GELU and reducing FLOPs counts. For the first time, we propose a Softmax-only architecture with significantly fewer FLOPs tailored for efficient PI. Furthermore, we devise a novel entropy regularization technique to improve the performance of Softmax-only models. AERO achieves up to 4.23$\times$ communication and 1.94$\times$ latency reduction. We validate the effectiveness of AERO by benchmarking it against the state-of-the-art.
- Abstract(参考訳): プロプライエタリな言語モデルの普及は、暗号化された入力に直接推論を行うプライベート推論(PI)の必要性を強調し、ユーザの機密データに対するプライバシー上の懸念を高めている。
しかし、現在のPI手法は、主に非線形操作のため、通信と遅延のオーバーヘッドが著しく高い。
本稿では,変換器を用いたデコーダのみの言語モデルにおける非線形性の役割を理解するための包括的分析を行う。
本稿では,LayerNorm や GELU などの非線形性を体系的に除去し,FLOP 数を削減し,既存の LLM アーキテクチャを改良した4段階アーキテクチャ最適化フレームワークである AERO を紹介する。
まず,効率のよい PI に適したFLOP が大幅に少ないSoftmax のみのアーキテクチャを提案する。
さらに,ソフトマックスモデルの性能向上のために,新しいエントロピー正規化手法を考案した。
AEROは最大4.23$\times$通信と1.94$\times$レイテンシ低減を実現している。
我々はAEROの有効性を最先端技術に対してベンチマークすることで検証する。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。
彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。
本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T04:35:56Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models [34.63351580241698]
本稿では,Transformerモデルに対する高速かつ正確なPPIを実現するために,SecFormerという高度な最適化フレームワークを導入する。
効率面では、SecFormerは、BERT$_textBASE$とBERT$_textLARGE$のPumaよりも3.56倍高速である。
論文 参考訳(メタデータ) (2024-01-01T15:40:35Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。