論文の概要: Lookup-Table Recurrent Language Models for Long Tail Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.04552v1
- Date: Fri, 9 Apr 2021 18:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:58:41.399072
- Title: Lookup-Table Recurrent Language Models for Long Tail Speech Recognition
- Title(参考訳): ロングテール音声認識のためのルックアップテーブルリカレント言語モデル
- Authors: W. Ronny Huang, Tara N. Sainath, Cal Peyser, Shankar Kumar, David
Rybach, Trevor Strohman
- Abstract要約: 単一のトークンではなく、前のn-gramトークンシーケンスを埋め込んだ埋め込みテーブルをインスタンス化する。
これにより、埋め込みテーブルを任意にスケールアップできる。
LookupLMは、下流音声認識タスクにおいて、ロングテールログのPerplexityを2.44、ロングテールWERを23.4%改善する。
- 参考スコア(独自算出の注目度): 40.76888403139426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Lookup-Table Language Models (LookupLM), a method for scaling up
the size of RNN language models with only a constant increase in the floating
point operations, by increasing the expressivity of the embedding table. In
particular, we instantiate an (additional) embedding table which embeds the
previous n-gram token sequence, rather than a single token. This allows the
embedding table to be scaled up arbitrarily -- with a commensurate increase in
performance -- without changing the token vocabulary. Since embeddings are
sparsely retrieved from the table via a lookup; increasing the size of the
table adds neither extra operations to each forward pass nor extra parameters
that need to be stored on limited GPU/TPU memory. We explore scaling n-gram
embedding tables up to nearly a billion parameters. When trained on a 3-billion
sentence corpus, we find that LookupLM improves long tail log perplexity by
2.44 and long tail WER by 23.4% on a downstream speech recognition task over a
standard RNN language model baseline, an improvement comparable to a scaling up
the baseline by 6.2x the number of floating point operations.
- Abstract(参考訳): 埋め込みテーブルの表現性を高めて,浮動小数点演算を一定に増加させるRNN言語モデルのスケールアップ方法であるルックアップ・テーブル言語モデル(LookupLM)を紹介する。
特に、単一のトークンではなく、前のn-gramトークンシーケンスを埋め込んだ(追加的な)埋め込みテーブルをインスタンス化する。
これにより、埋め込みテーブルは、トークンの語彙を変更することなく、任意にスケールし、パフォーマンスが上昇します。
埋め込みはルックアップによってテーブルからわずかに取得されるため、テーブルのサイズが大きくなると、各前方パスに余分な操作も、限られたGPU/TPUメモリに格納される必要のある余分なパラメータも追加されない。
約10億のパラメータにn-gramの埋め込みテーブルのスケーリングについて検討する。
3ビリオン文コーパスでトレーニングすると、LookupLMは標準RNN言語モデルベースライン上の下流音声認識タスクにおいて、長いテールログのパープレキシティを2.44倍、長いテールWERを23.4%改善し、ベースラインのスケールアップに匹敵する改善を浮動小数点演算の6.2倍改善することがわかった。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - ReTAG: Reasoning Aware Table to Analytic Text Generation [12.603569641254417]
ReTAGは、ベクトル量子化を用いて異なるタイプの解析的推論を出力に注入するテーブルおよび推論認識モデルである。
私たちは、ToTTo、InfoTabsデータセットを参照文毎に推論カテゴリで拡張(そして、オープンソースの35.6K分析、55.9k記述インスタンス)します。
論文 参考訳(メタデータ) (2023-05-19T17:03:09Z) - Optimized Table Tokenization for Table Structure Recognition [2.9398911304923447]
変換器ベースのモデルでは、画像からマークアップ・シーケンスのアプローチを用いてテーブル構造を印象的な精度で認識できることが示されている。
テーブルのイメージのみを取ると、そのようなモデルはテーブルの構造を表すトークンのシーケンスを予測する。
本稿では,最小限の語彙と特定の規則を持つテーブル構造言語(OTSL)を提案する。
論文 参考訳(メタデータ) (2023-05-05T09:38:47Z) - The Power of External Memory in Increasing Predictive Model Capacity [15.364501124633179]
ディープネットワークに疎結合を導入する方法の1つは、ネットワークの異なるレイヤをわずかに見上げるパラメータの外部テーブルをアタッチすることである。
パラメータの大部分を外部テーブルに格納することで、必ずしも推論時間を増大させることなく、モデルのキャパシティを増大させることができる。
論文 参考訳(メタデータ) (2023-01-31T00:29:39Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。