Fugu-MT 論文翻訳(概要): AERO: Softmax-Only LLMs for Efficient Private Inference

論文の概要: AERO: Softmax-Only LLMs for Efficient Private Inference

arxiv url: http://arxiv.org/abs/2410.13060v2
Date: Mon, 02 Dec 2024 21:42:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.04595
Title: AERO: Softmax-Only LLMs for Efficient Private Inference
Title（参考訳）: AERO: 効率的なプライベート推論のためのソフトマックス専用LLM
Authors: Nandan Kumar Jha, Brandon Reagen,
Abstract要約: 本稿では,変換器を用いたデコーダのみの言語モデルにおける非線形性の役割を理解するための包括的解析を行う。 AEROは,既存のLLMアーキテクチャを改良した4段階アーキテクチャ最適化フレームワークである。まず,効率のよい PI に適したFLOP が大幅に少ないSoftmax のみのアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 3.7802450241986945
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The pervasiveness of proprietary language models has raised privacy concerns for users' sensitive data, emphasizing the need for private inference (PI), where inference is performed directly on encrypted inputs. However, current PI methods face prohibitively higher communication and latency overheads, primarily due to nonlinear operations. In this paper, we present a comprehensive analysis to understand the role of nonlinearities in transformer-based decoder-only language models. We introduce AERO, a four-step architectural optimization framework that refines the existing LLM architecture for efficient PI by systematically removing nonlinearities such as LayerNorm and GELU and reducing FLOPs counts. For the first time, we propose a Softmax-only architecture with significantly fewer FLOPs tailored for efficient PI. Furthermore, we devise a novel entropy regularization technique to improve the performance of Softmax-only models. AERO achieves up to 4.23$\times$ communication and 1.94$\times$ latency reduction. We validate the effectiveness of AERO by benchmarking it against the state-of-the-art.
Abstract（参考訳）: プロプライエタリな言語モデルの普及は、暗号化された入力に直接推論を行うプライベート推論(PI)の必要性を強調し、ユーザの機密データに対するプライバシー上の懸念を高めている。しかし、現在のPI手法は、主に非線形操作のため、通信と遅延のオーバーヘッドが著しく高い。本稿では,変換器を用いたデコーダのみの言語モデルにおける非線形性の役割を理解するための包括的分析を行う。本稿では,LayerNorm や GELU などの非線形性を体系的に除去し,FLOP 数を削減し,既存の LLM アーキテクチャを改良した4段階アーキテクチャ最適化フレームワークである AERO を紹介する。まず,効率のよい PI に適したFLOP が大幅に少ないSoftmax のみのアーキテクチャを提案する。さらに,ソフトマックスモデルの性能向上のために,新しいエントロピー正規化手法を考案した。 AEROは最大4.23$\times$通信と1.94$\times$レイテンシ低減を実現している。我々はAEROの有効性を最先端技術に対してベンチマークすることで検証する。

関連論文リスト

SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文参考訳（メタデータ） (2025-06-12T07:23:56Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Entropy-Guided Attention for Private LLMs [3.7802450241986945]
本稿では,デコーダのみの言語モデルにおける非線形性の役割を特徴付ける情報理論フレームワークを提案する。シャノンのエントロピーを定量的な尺度として活用することにより、これまで探索されなかった非線形性の二重性を明らかにする。本稿では,新しいエントロピー正規化手法と組み合わせたエントロピー誘導型アテンション機構を提案し,エントロピー過負荷を軽減する。
論文参考訳（メタデータ） (2025-01-07T03:17:47Z)
MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。 HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文参考訳（メタデータ） (2024-12-10T22:44:54Z)
TruncFormer: Private LLM Inference Using Only Truncations [20.477495294254997]
プライベート推論(PI)は、ユーザデータのプライバシを保証する上で重要な役割を果たす。 PIは、機械学習モデルにおける非線形関数に関連する膨大なレイテンシコストのために、事実上難解なままである。 TruncFormerは、任意の機械学習モデルを取得し、それをPIのプレーンテキストエミュレーションに変換するためのフレームワークである。
論文参考訳（メタデータ） (2024-12-02T01:55:42Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文参考訳（メタデータ） (2024-10-15T04:35:56Z)
Model-Based Privacy-Preserving Knowledge Transfer for Large Language Models [34.949731264918846]
Llamdexは大規模言語モデル(LLM)を強化するフレームワークで、ドメイン固有のデータに基づいてトレーニングされたモデルのみを使用する。提案手法は,ドメイン固有のタスクの精度を大幅に向上し,最大26%の精度向上を実現する。
論文参考訳（メタデータ） (2024-10-14T13:18:20Z)
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文参考訳（メタデータ） (2024-09-26T14:17:58Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models [34.63351580241698]
本稿では,Transformerモデルに対する高速かつ正確なPPIを実現するために,SecFormerという高度な最適化フレームワークを導入する。効率面では、SecFormerは、BERT$_textBASE$とBERT$_textLARGE$のPumaよりも3.56倍高速である。
論文参考訳（メタデータ） (2024-01-01T15:40:35Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。