Fugu-MT 論文翻訳(概要): Lookup-Table Recurrent Language Models for Long Tail Speech Recognition

論文の概要: Lookup-Table Recurrent Language Models for Long Tail Speech Recognition

arxiv url: http://arxiv.org/abs/2104.04552v1
Date: Fri, 9 Apr 2021 18:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-13 13:58:41.399072
Title: Lookup-Table Recurrent Language Models for Long Tail Speech Recognition
Title（参考訳）: ロングテール音声認識のためのルックアップテーブルリカレント言語モデル
Authors: W. Ronny Huang, Tara N. Sainath, Cal Peyser, Shankar Kumar, David Rybach, Trevor Strohman
Abstract要約: 単一のトークンではなく、前のn-gramトークンシーケンスを埋め込んだ埋め込みテーブルをインスタンス化する。これにより、埋め込みテーブルを任意にスケールアップできる。 LookupLMは、下流音声認識タスクにおいて、ロングテールログのPerplexityを2.44、ロングテールWERを23.4%改善する。
参考スコア（独自算出の注目度）: 40.76888403139426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Lookup-Table Language Models (LookupLM), a method for scaling up the size of RNN language models with only a constant increase in the floating point operations, by increasing the expressivity of the embedding table. In particular, we instantiate an (additional) embedding table which embeds the previous n-gram token sequence, rather than a single token. This allows the embedding table to be scaled up arbitrarily -- with a commensurate increase in performance -- without changing the token vocabulary. Since embeddings are sparsely retrieved from the table via a lookup; increasing the size of the table adds neither extra operations to each forward pass nor extra parameters that need to be stored on limited GPU/TPU memory. We explore scaling n-gram embedding tables up to nearly a billion parameters. When trained on a 3-billion sentence corpus, we find that LookupLM improves long tail log perplexity by 2.44 and long tail WER by 23.4% on a downstream speech recognition task over a standard RNN language model baseline, an improvement comparable to a scaling up the baseline by 6.2x the number of floating point operations.
Abstract（参考訳）: 埋め込みテーブルの表現性を高めて,浮動小数点演算を一定に増加させるRNN言語モデルのスケールアップ方法であるルックアップ・テーブル言語モデル(LookupLM)を紹介する。特に、単一のトークンではなく、前のn-gramトークンシーケンスを埋め込んだ(追加的な)埋め込みテーブルをインスタンス化する。これにより、埋め込みテーブルは、トークンの語彙を変更することなく、任意にスケールし、パフォーマンスが上昇します。埋め込みはルックアップによってテーブルからわずかに取得されるため、テーブルのサイズが大きくなると、各前方パスに余分な操作も、限られたGPU/TPUメモリに格納される必要のある余分なパラメータも追加されない。約10億のパラメータにn-gramの埋め込みテーブルのスケーリングについて検討する。 3ビリオン文コーパスでトレーニングすると、LookupLMは標準RNN言語モデルベースライン上の下流音声認識タスクにおいて、長いテールログのパープレキシティを2.44倍、長いテールWERを23.4%改善し、ベースラインのスケールアップに匹敵する改善を浮動小数点演算の6.2倍改善することがわかった。

関連論文リスト

SPRINT: Script-agnostic Structure Recognition in Tables [20.394597266150534]
表構造認識(TSR)は、情報検索、テーブル再構築、文書理解など、さまざまな下流業務に不可欠である。言語に依存しないセル配置予測としてTSRを提案し,表にSPRINT, スクリプトに依存しない構造認識を導入する。我々は、PubTabNet、FinTabNet、PubTables-1Mを含むベンチマークTSRデータセットのパフォーマンスを実験的に評価した。
論文参考訳（メタデータ） (2025-03-15T00:43:53Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Large Scale Transfer Learning for Tabular Data via Language Modeling [30.44823668480631]
グラフ予測のための言語モデルであるTabuLa-8Bを提案する。 4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
論文参考訳（メタデータ） (2024-06-17T18:58:20Z)
TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。 WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文参考訳（メタデータ） (2024-04-15T21:42:20Z)
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文参考訳（メタデータ） (2024-04-11T15:27:22Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
Optimized Table Tokenization for Table Structure Recognition [2.9398911304923447]
変換器ベースのモデルでは、画像からマークアップ・シーケンスのアプローチを用いてテーブル構造を印象的な精度で認識できることが示されている。テーブルのイメージのみを取ると、そのようなモデルはテーブルの構造を表すトークンのシーケンスを予測する。本稿では,最小限の語彙と特定の規則を持つテーブル構造言語(OTSL)を提案する。
論文参考訳（メタデータ） (2023-05-05T09:38:47Z)
The Power of External Memory in Increasing Predictive Model Capacity [15.364501124633179]
ディープネットワークに疎結合を導入する方法の1つは、ネットワークの異なるレイヤをわずかに見上げるパラメータの外部テーブルをアタッチすることである。パラメータの大部分を外部テーブルに格納することで、必ずしも推論時間を増大させることなく、モデルのキャパシティを増大させることができる。
論文参考訳（メタデータ） (2023-01-31T00:29:39Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文参考訳（メタデータ） (2020-03-18T13:07:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。