論文の概要: Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training
- arxiv url: http://arxiv.org/abs/2406.17404v2
- Date: Sat, 05 Oct 2024 16:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:39.224964
- Title: Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training
- Title(参考訳): make some noise: Unlocking Language Model Parallel Inference Capability through Noisy Training (英語)
- Authors: Yixuan Wang, Xianzhen Luo, Fuxuan Wei, Yijun Liu, Qingfu Zhu, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che,
- Abstract要約: 大規模言語モデルの教師付き微調整段階の代替として,Make Some Noise (MSN) トレーニングフレームワークを提案する。
トレーニング方法は、単にモデルの入力にいくつかのノイズを導入して、認知タスクを学習する。
一般領域とコード領域の両方の実験では、MSNはモデル性能を損なうことなく2.3-2.7倍の速度で推論できることを示した。
- 参考スコア(独自算出の注目度): 54.581599828392854
- License:
- Abstract: Existing speculative decoding methods typically require additional model structure and training processes to assist the model for draft token generation. This makes the migration of acceleration methods to the new model more costly and more demanding on device memory. To address this problem, we propose the Make Some Noise (MSN) training framework as a replacement for the supervised fine-tuning stage of the large language model. The training method simply introduces some noise at the input for the model to learn the denoising task. It significantly enhances the parallel decoding capability of the model without affecting the original task capability. In addition, we propose a tree-based retrieval-augmented Jacobi (TR-Jacobi) decoding strategy to further improve the inference speed of MSN models. Experiments in both the general and code domains have shown that MSN can improve inference speed by 2.3-2.7x times without compromising model performance. The MSN model also achieves comparable acceleration ratios to the SOTA model with additional model structure on Spec-Bench.
- Abstract(参考訳): 既存の投機的復号法は、通常、ドラフトトークン生成のモデルを支援するために追加のモデル構造とトレーニングプロセスを必要とする。
これにより、アクセラレーションメソッドの新たなモデルへの移行は、デバイスメモリのコストと要求がより高くなる。
この問題に対処するために,大規模言語モデルの教師付き微調整段階の代替として,Make Some Noise (MSN) トレーニングフレームワークを提案する。
トレーニング方法は、単にモデルの入力にいくつかのノイズを導入して、認知タスクを学習する。
これは、オリジナルのタスク能力に影響を与えることなく、モデルの並列デコーディング能力を著しく向上させる。
さらに,MSNモデルの推論速度をさらに向上するために,木に基づく検索拡張Jacobiデコード戦略を提案する。
一般領域とコード領域の両方の実験では、MSNはモデル性能を損なうことなく2.3-2.7倍の速度で推論できることを示した。
MSNモデルは、Spec-Bench上の追加モデル構造を持つSOTAモデルに匹敵する加速比も達成している。
関連論文リスト
- Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Federated Topic Model and Model Pruning Based on Variational Autoencoder [14.737942599204064]
フェデレートされたトピックモデリングにより、複数のパーティがデータのプライバシを保護しながらモデルを共同でトレーニングできる。
本稿では,各ノードのプライバシを確保しつつ,フェデレートされたトピックモデルを確立する手法を提案し,ニューラルネットワークモデルプルーニングを用いてモデルを高速化する。
実験結果から,フェデレートされたトピックモデルプルーニングは,モデルの性能を確保しつつ,モデルのトレーニング速度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-11-01T06:00:14Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Language Models not just for Pre-training: Fast Online Neural Noisy
Channel Modeling [35.43382144290393]
本稿では,ノイズチャネルアプローチによる推定を,強いアンサンブルの速さで行うための効率的な近似法を提案する。
また,WMTルーマニア語-英語翻訳における新たな手法の達成により,ノイズチャネルアプローチは,事前学習結果よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-13T23:22:28Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。