論文の概要: MERGE: Fast Private Text Generation
- arxiv url: http://arxiv.org/abs/2305.15769v3
- Date: Mon, 11 Dec 2023 10:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:43:13.718419
- Title: MERGE: Fast Private Text Generation
- Title(参考訳): MERGE: 高速なプライベートテキスト生成
- Authors: Zi Liang, Pinghui Wang, Ruofei Zhang, Nuo Xu, Lifeng Xing, and Shuo
Zhang
- Abstract要約: 本稿では,トランスフォーマーに基づく言語モデル,すなわちMERGE.MERGEのための高速なプライベートテキスト生成フレームワークを提案する。
MERGEは、シーケンス長512のバニラ暗号化モデルに対して26.5倍のスピードアップを実現し、80%の通信コストを削減し、最先端の近似モデルに対して最大10倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 24.030372273365586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The drastic increase in language models' parameters has led to a new trend of
deploying models in cloud servers, raising growing concerns about private
inference for Transformer-based models. Existing two-party privacy-preserving
techniques, however, only take into account natural language understanding
(NLU) scenarios. Private inference in natural language generation (NLG),
crucial for applications like translation and code completion, remains
underexplored.In addition, previous privacy-preserving techniques suffer from
convergence issues during model training and exhibit poor inference speed when
used with NLG models due to the neglect of time-consuming operations in
auto-regressive generations. To address these issues, we propose a fast private
text generation framework for Transformer-based language models, namely
MERGE.MERGE reuses the output hidden state as the word embedding to bypass the
embedding computation and reorganize the linear operations in the Transformer
module to accelerate the forward procedure. Extensive experiments show that
MERGE achieves a 26.5x speedup to the vanilla encrypted model under the
sequence length 512, and reduces 80\% communication cost, with an up to 10x
speedup to state-of-the-art approximated models.
- Abstract(参考訳): 言語モデルのパラメータの大幅な増加により、クラウドサーバにモデルをデプロイする新たなトレンドが生まれ、Transformerベースのモデルに対するプライベート推論に対する懸念が高まっている。
しかし、既存の2つのプライバシー保護技術は、自然言語理解(nlu)のシナリオのみを考慮に入れている。
翻訳やコード補完といったアプリケーションで不可欠な自然言語生成(nlg)のプライベート推論は未検討のままである。さらに,従来のプライバシ保存技術では,モデルトレーニング中の収束問題や,自動回帰世代における時間消費操作の無視によるnlgモデル使用時の推論速度の低下が指摘されている。
これらの問題に対処するため、Transformer ベースの言語モデルのための高速なプライベートテキスト生成フレームワーク MERGE.MERGE は、単語の埋め込みとして出力隠蔽状態を再利用し、埋め込み計算をバイパスし、Transformer モジュール内の線形操作を再編成し、転送手順を高速化する。
大規模な実験により、MERGEはシーケンス長512のバニラ暗号化モデルの26.5倍のスピードアップを実現し、80%の通信コストを削減し、最先端の近似モデルの最大10倍のスピードアップを実現している。
関連論文リスト
- Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension [6.602323571343169]
学習前生成言語モデル(PLM)の微調整段階で統合されたQASEは,その性能を著しく向上させる。
QASEモジュールの有効性は、さまざまなデータセットで厳格にテストされている。
論文 参考訳(メタデータ) (2024-04-27T19:42:51Z) - ProSG: Using Prompt Synthetic Gradients to Alleviate Prompt Forgetting
of RNN-like Language Models [0.0]
本稿では,合成勾配による生成過程におけるモデル記憶プロンプトを記憶するアーキテクチャを提案する。
実験のためのデータセットを構築し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-03T15:34:02Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse
Heterogeneous Computing [64.53242758625922]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。
さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-20T03:39:27Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Training Large-Vocabulary Neural Language Models by Private Federated
Learning for Resource-Constrained Devices [14.604785223644718]
Federated Learning(FL)は、デバイスに分散したデータを使ってモデルをトレーニングするテクニックである。
差分プライバシー(DP)は、機密データに対して正式なプライバシー保証を提供する。
ペイロードサイズを小さくすることでノイズを低減できる部分埋め込み更新(PEU)を提案する。
論文 参考訳(メタデータ) (2022-07-18T23:53:17Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Lexically Constrained Neural Machine Translation with Levenshtein
Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。
提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文 参考訳(メタデータ) (2020-04-27T09:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。