論文の概要: Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2301.00066v1
- Date: Fri, 30 Dec 2022 22:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:30:33.171483
- Title: Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition
- Title(参考訳): メモリ拡張型検索辞書に基づく自動音声認識のための言語モデル
- Authors: Yukun Feng and Ming Tu and Rui Xia and Chuanzeng Huang and Yuxuan Wang
- Abstract要約: LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
- 参考スコア(独自算出の注目度): 20.926163659469587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that using an external Language Model (LM) benefits
the end-to-end Automatic Speech Recognition (ASR). However, predicting tokens
that appear less frequently in the training set is still quite challenging. The
long-tail prediction problems have been widely studied in many applications,
but only been addressed by a few studies for ASR and LMs. In this paper, we
propose a new memory augmented lookup dictionary based Transformer architecture
for LM. The newly introduced lookup dictionary incorporates rich contextual
information in training set, which is vital to correctly predict long-tail
tokens. With intensive experiments on Chinese and English data sets, our
proposed method is proved to outperform the baseline Transformer LM by a great
margin on both word/character error rate and tail tokens error rate. This is
achieved without impact on the decoding efficiency. Overall, we demonstrate the
effectiveness of our proposed method in boosting the ASR decoding performance,
especially for long-tail tokens.
- Abstract(参考訳): 近年の研究では、外部言語モデル(LM)を用いることで、エンドツーエンドの自動音声認識(ASR)が有効であることが示されている。
しかし、トレーニングセットで頻繁に現れるトークンの予測は依然として非常に難しい。
ロングテール予測問題は多くの応用で広く研究されてきたが、asrとlmsの研究によってのみ解決された。
本稿では,lm用の新しいメモリ拡張検索辞書ベースのトランスフォーマアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
中国語と英語のデータ集合に対する集中的な実験により,提案手法はワード/文字誤り率とテールトークン誤り率に大きな差を伴って,ベースライントランスフォーマーLMより優れていることを示した。
これは復号効率に影響を与えることなく達成される。
全体としては,提案手法がasr復号性能,特にロングテールトークンの高速化に有効であることを示す。
関連論文リスト
- LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。
符号化プロセス中に長いトークンを優先するLBPEを提案する。
多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-11-08T12:03:36Z) - MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from LZW Compression [5.5795785998430185]
MultiTokは、ユニバーサルなLempel-Ziv-Welchデータ圧縮にインスパイアされた新しいトークンツールである。
我々は、MultiTokが、トークン化としてBERT標準に匹敵する性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-28T21:24:51Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Understanding the Role of Input Token Characters in Language Models: How
Does Information Loss Affect Performance? [45.53600782873268]
入力トークン文字における情報損失が事前学習言語モデルの性能に与える影響について検討する。
驚くべきことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、および探索タスクが高いことが判明した。
例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90ドル%と7,7ドル%のパフォーマンス保持が達成される。
論文 参考訳(メタデータ) (2023-10-26T09:47:50Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Learning Rich Representation of Keyphrases from Text [12.698835743464313]
テキスト文書からキーフレーズの表現を豊かに学習することを目的としたタスク固有言語モデルの学習方法を示す。
差別的設定では、新しい事前学習目標である、KBIR(Keyphrase boundary Infilling with Replacement)を導入する。
生成設定では、入力テキストに関連するキーフレーズをCatSeqフォーマットで再現する、BART-KeyBARTの新しい事前学習設定を導入する。
論文 参考訳(メタデータ) (2021-12-16T01:09:51Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。