論文の概要: Error-driven Pruning of Language Models for Virtual Assistants
- arxiv url: http://arxiv.org/abs/2102.07219v1
- Date: Sun, 14 Feb 2021 18:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:51:24.859597
- Title: Error-driven Pruning of Language Models for Virtual Assistants
- Title(参考訳): 仮想アシスタントのための言語モデルのエラー駆動pruning
- Authors: Sashank Gondala, Lyan Verwimp, Ernest Pusateri, Manos Tsagkias,
Christophe Van Gysel
- Abstract要約: 仮想アシスタント(VA)のための言語モデル(LM)は、通常、大量のデータで訓練されます。
より緩和された刈り取りしきい値を必要とするn-gramのキープリストを許可することで、エントロピーの刈り取りをカスタマイズする。
また,最大 lm で達成された wer の成果の大部分を保ちつつ,lm の大きさを小さくする判別手法を提案する。
- 参考スコア(独自算出の注目度): 7.893832677040097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) for virtual assistants (VAs) are typically trained on
large amounts of data, resulting in prohibitively large models which require
excessive memory and/or cannot be used to serve user requests in real-time.
Entropy pruning results in smaller models but with significant degradation of
effectiveness in the tail of the user request distribution. We customize
entropy pruning by allowing for a keep list of infrequent n-grams that require
a more relaxed pruning threshold, and propose three methods to construct the
keep list. Each method has its own advantages and disadvantages with respect to
LM size, ASR accuracy and cost of constructing the keep list. Our best LM gives
8% average Word Error Rate (WER) reduction on a targeted test set, but is 3
times larger than the baseline. We also propose discriminative methods to
reduce the size of the LM while retaining the majority of the WER gains
achieved by the largest LM.
- Abstract(参考訳): 仮想アシスタント(VA)のための言語モデル(LM)は、通常大量のデータに基づいて訓練されるため、過剰なメモリや/またはリアルタイムのユーザ要求に使用できないような、違法に大規模なモデルが得られる。
Entropy pruningはより小さいモデルで結果をもたらすが、ユーザー要求の配分の尾の有効性の有意な低下と。
我々は,より緩和されたプルーニング閾値を必要とするn-gramのキープリストを許可することでエントロピープルーニングをカスタマイズし,keepリストを構築するための3つの方法を提案する。
各メソッドには、LMサイズ、ASRの精度、およびキープリストを構築するコストに関して、独自の利点と欠点があります。
我々の最高のLMは、目標とするテストセットに対して平均単語誤り率(WER)を8%削減するが、ベースラインよりも3倍大きい。
また,最大 lm で達成された wer の成果の大部分を保ちつつ,lm の大きさを小さくする判別手法を提案する。
関連論文リスト
- Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Tuning Language Models by Proxy [117.08206725096036]
プロキシチューニングは、ブラックボックスLM上で動作する軽量な復号時間アルゴリズムである。
我々の研究は、小さく調整されたLMを使用して、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - Small Language Model Can Self-correct [45.88146019748852]
本稿では,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに内在的アンダーライン・アンダーライン・コレクション(ISC)を導入する。
我々は,60億から13億のパラメータサイズを持つLMを用いて,常識推論と事実知識推論を含む2つのタスクで実験を行う。
論文 参考訳(メタデータ) (2024-01-14T14:29:07Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with
Language Models [116.19321613273311]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and
Distillation of Rerankers [42.84866455416052]
我々は,大規模言語モデル(LLM)を用いて大量の合成クエリを安価に生成する手法を開発し,動機づける。
この手法により、長テール領域におけるゼロショット精度が向上し、標準のリグレード法よりもかなり低レイテンシを実現することを示す。
論文 参考訳(メタデータ) (2023-03-01T20:21:23Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。