論文の概要: $\textit{Comet:}$ A $\underline{Com}$munication-$\underline{e}$fficient and Performant Approxima$\underline{t}$ion for Private Transformer Inference
- arxiv url: http://arxiv.org/abs/2405.17485v1
- Date: Fri, 24 May 2024 18:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:00:30.059099
- Title: $\textit{Comet:}$ A $\underline{Com}$munication-$\underline{e}$fficient and Performant Approxima$\underline{t}$ion for Private Transformer Inference
- Title(参考訳): $\textit{Comet:}$ A $\underline{Com}$munication-$\underline{e}$fficient and Performant Approxima$\underline{t}$ion for Private Transformer Inference
- Authors: Xiangrui Xu, Qiao Zhang, Rui Ning, Chunsheng Xin, Hongyi Wu,
- Abstract要約: 推論性能を損なうことなく通信コストを削減するために,新しいプラグイン方式Cometを導入する。
私たちは、GLUEベンチマークデータセットでComet on BertとRoBERTaモデルを評価し、通信の少ない3.9$times$と3.5$times$ Speedupsを示しました。
- 参考スコア(独自算出の注目度): 16.328220661765744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalent use of Transformer-like models, exemplified by ChatGPT in modern language processing applications, underscores the critical need for enabling private inference essential for many cloud-based services reliant on such models. However, current privacy-preserving frameworks impose significant communication burden, especially for non-linear computation in Transformer model. In this paper, we introduce a novel plug-in method Comet to effectively reduce the communication cost without compromising the inference performance. We second introduce an efficient approximation method to eliminate the heavy communication in finding good initial approximation. We evaluate our Comet on Bert and RoBERTa models with GLUE benchmark datasets, showing up to 3.9$\times$ less communication and 3.5$\times$ speedups while keep competitive model performance compared to the prior art.
- Abstract(参考訳): 現代の言語処理アプリケーションでChatGPTによって実証されたTransformerライクなモデルの一般的な使用は、そのようなモデルに依存した多くのクラウドベースのサービスに不可欠なプライベート推論を実現するための重要な必要性を浮き彫りにしている。
しかしながら、現在のプライバシ保護フレームワークは、特にTransformerモデルにおける非線形計算において、通信負担を著しく軽減している。
本稿では,推論性能を損なうことなく,通信コストを効果的に削減する新しいプラグイン方式Cometを提案する。
第2に,優れた初期近似を求める際の通信量を削減するための効率的な近似手法を提案する。
我々は、GLUEベンチマークデータセットを用いて、Comet on BertとRoBERTaモデルを評価し、通信の少ない3.9$\times$と3.5$\times$のスピードアップを示しながら、以前の技術と比較して競争力のあるモデルパフォーマンスを維持している。
関連論文リスト
- Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models [54.02863371927658]
大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。
フェレットは、ランダム性を共有する最初の一階法である。
高い計算効率、通信オーバーヘッドの低減、高速収束を実現している。
論文 参考訳(メタデータ) (2024-09-10T07:28:13Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - Achieving Dimension-Free Communication in Federated Learning via Zeroth-Order Optimization [15.73877955614998]
本稿では,クライアント間で一定数のスカラー値を送信することで,通信コストを$mathscrO(d)$から$mathscrO(1)$に削減する,新しい通信アルゴリズムDeComFLを提案する。
古典的なディープラーニングトレーニングと大規模言語モデルの微調整の両方を含む経験的評価は、通信オーバーヘッドを大幅に削減することを示している。
論文 参考訳(メタデータ) (2024-05-24T18:07:05Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - Communication-Efficient Federated Learning through Adaptive Weight
Clustering and Server-Side Distillation [10.541541376305245]
Federated Learning(FL)は、複数のデバイスにわたるディープニューラルネットワークの協調トレーニングのための有望なテクニックである。
FLは、トレーニング中に繰り返しサーバー・クライアント間の通信によって、過剰な通信コストによって妨げられる。
本稿では,動的重みクラスタリングとサーバ側知識蒸留を組み合わせた新しいアプローチであるFedCompressを提案する。
論文 参考訳(メタデータ) (2024-01-25T14:49:15Z) - Communication Efficient Federated Learning for Multilingual Neural
Machine Translation with Adapter [21.512817959760007]
Federated Multilingual Neural Machine Translation (Fed-MNMT)は、限られた言語資源を持つ機関にとって有望なパラダイムとして登場した。
このアプローチにより、複数の機関がクライアントとして行動し、集中的なトレーニングのためにセンシティブなデータを収集するのではなく、モデル同期を通じて統一されたモデルをトレーニングできる。
しかし, 事前学習言語モデル (PLM) のサイズが大きくなるにつれ, 同期時のパラメータ伝達の通信コストは, 訓練速度のボトルネックとなっている。
PLMを凍結し,クライアント間でのみ軽量なアダプタモジュールを転送することで,この問題に対処する通信効率の高いFed-MNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T12:48:38Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - FedLite: A Scalable Approach for Federated Learning on
Resource-constrained Clients [41.623518032533035]
スプリットラーニングでは、モデルのごく一部だけがクライアントに格納され、トレーニングされ、残りの部分はサーバに留まる。
本稿では,勾配補正法を伴って,新たなクラスタリング方式を用いて付加的な通信を圧縮することにより,この問題に対処する。
論文 参考訳(メタデータ) (2022-01-28T00:09:53Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Distilled One-Shot Federated Learning [13.294757670979031]
そこで本稿では, DOSFL (Distilled One-Shot Federated Learning) を提案する。
たった1ラウンドで、各クライアントはプライベートデータセットを蒸留し、合成データ(画像や文など)をサーバに送る。
この軽量で勾配のない設計では、DOSFLの通信コストはFedAvgよりも最大で3桁少ない。
論文 参考訳(メタデータ) (2020-09-17T01:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。