論文の概要: MERGE: Fast Private Text Generation
- arxiv url: http://arxiv.org/abs/2305.15769v2
- Date: Sun, 2 Jul 2023 11:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 13:13:06.806736
- Title: MERGE: Fast Private Text Generation
- Title(参考訳): MERGE: 高速なプライベートテキスト生成
- Authors: Zi Liang, Pinghui Wang, Ruofei Zhang, Lifeng Xing, Nuo Xu, Shuo Zhang
- Abstract要約: トランスフォーマーに基づく言語モデルのための高速なプライベートテキスト生成フレームワークであるMERGEを提案する。
MERGEは、ワード埋め込みとして出力隠蔽状態を再利用し、埋め込みをバイパスし、トランスフォーマーモジュール内の線形操作を再編成し、フォワードプロシージャを高速化する。
実験の結果、MERGEはシーケンス長512で26.5倍のスピードアップを達成でき、80%の通信バイトを削減できる。
- 参考スコア(独自算出の注目度): 25.770564651745424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen increasing concerns about the private inference of NLP
services and Transformer models. However, existing two-party privacy-preserving
methods solely consider NLU scenarios, while the private inference of text
generation such as translation, dialogue, and code completion remains unsolved.
Besides, while migrated to NLG models, existing privacy-preserving methods
perform poorly in terms of inference speed, and suffer from the convergence
problem during the training stage. To address these issues, we propose MERGE, a
fast private text generation framework for Transformer-based language models.
Specifically, MERGE reuse the output hidden state as the word embedding to
bypass the embedding computation, and reorganize the linear operations in the
Transformer module to accelerate the forward procedure. Based on these two
optimizations, extensive experiments show that MERGE can achieve a 26.5x
speedup under the sequence length 512, and reduce 80\% communication bytes,
with an up to 10x speedup to existing state-of-art models.
- Abstract(参考訳): 近年、NLPサービスとTransformerモデルのプライベートな推測に対する懸念が高まっている。
しかし、既存の2つのプライバシー保護手法はnluシナリオのみを考慮し、翻訳、対話、コード補完といったテキスト生成のプライベート推論は未解決である。
さらに、nlgモデルに移行する一方で、既存のプライバシ保存手法は推論速度の面ではパフォーマンスが悪く、トレーニング段階で収束問題に苦しんでいる。
そこで本稿では,トランスフォーマティブ言語モデルのための高速プライベートテキスト生成フレームワークmergeを提案する。
具体的には、マージは出力された隠れ状態をワード埋め込みとして再利用し、埋め込み計算をバイパスし、前方手続きを加速するためにトランスフォーマーモジュールの線形演算を再編成する。
これらの2つの最適化に基づいて、MERGEはシーケンス長512の26.5倍のスピードアップを実現し、80\%の通信バイトを削減し、既存の最先端モデルに最大10倍のスピードアップを達成できることを示した。
関連論文リスト
- Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension [6.602323571343169]
学習前生成言語モデル(PLM)の微調整段階で統合されたQASEは,その性能を著しく向上させる。
QASEモジュールの有効性は、さまざまなデータセットで厳格にテストされている。
論文 参考訳(メタデータ) (2024-04-27T19:42:51Z) - ProSG: Using Prompt Synthetic Gradients to Alleviate Prompt Forgetting
of RNN-like Language Models [0.0]
本稿では,合成勾配による生成過程におけるモデル記憶プロンプトを記憶するアーキテクチャを提案する。
実験のためのデータセットを構築し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-03T15:34:02Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse
Heterogeneous Computing [64.53242758625922]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。
さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-20T03:39:27Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Training Large-Vocabulary Neural Language Models by Private Federated
Learning for Resource-Constrained Devices [14.604785223644718]
Federated Learning(FL)は、デバイスに分散したデータを使ってモデルをトレーニングするテクニックである。
差分プライバシー(DP)は、機密データに対して正式なプライバシー保証を提供する。
ペイロードサイズを小さくすることでノイズを低減できる部分埋め込み更新(PEU)を提案する。
論文 参考訳(メタデータ) (2022-07-18T23:53:17Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Lexically Constrained Neural Machine Translation with Levenshtein
Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。
提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文 参考訳(メタデータ) (2020-04-27T09:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。