論文の概要: Subword RNNLM Approximations for Out-Of-Vocabulary Keyword Search
- arxiv url: http://arxiv.org/abs/2005.13827v2
- Date: Thu, 10 Sep 2020 12:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:47:57.789295
- Title: Subword RNNLM Approximations for Out-Of-Vocabulary Keyword Search
- Title(参考訳): 単語外語彙検索のためのサブワードRNNLM近似
- Authors: Mittul Singh, Sami Virpioja, Peter Smit, Mikko Kurimo
- Abstract要約: 音声キーワード検索では、このクエリは音声認識システムの訓練時に観察されない語彙外単語(OOV)を含むことができる。
サブワード言語モデル(LM)をファーストパス認識で使用することで、OOVワードを認識できるが、サブワードのn-gram LMでさえデータ間隔に悩まされる。
本稿では,従来のn-gramモデルとRNNLM近似を補間してOOV認識を改善することを提案する。
- 参考スコア(独自算出の注目度): 17.492336084190658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spoken Keyword Search, the query may contain out-of-vocabulary (OOV) words
not observed when training the speech recognition system. Using subword
language models (LMs) in the first-pass recognition makes it possible to
recognize the OOV words, but even the subword n-gram LMs suffer from data
sparsity. Recurrent Neural Network (RNN) LMs alleviate the sparsity problems
but are not suitable for first-pass recognition as such. One way to solve this
is to approximate the RNNLMs by back-off n-gram models. In this paper, we
propose to interpolate the conventional n-gram models and the RNNLM
approximation for better OOV recognition. Furthermore, we develop a new RNNLM
approximation method suitable for subword units: It produces variable-order
n-grams to include long-span approximations and considers also n-grams that
were not originally observed in the training corpus. To evaluate these models
on OOVs, we setup Arabic and Finnish Keyword Search tasks concentrating only on
OOV words. On these tasks, interpolating the baseline RNNLM approximation and a
conventional LM outperforms the conventional LM in terms of the Maximum Term
Weighted Value for single-character subwords. Moreover, replacing the baseline
approximation with the proposed method achieves the best performance on both
multi- and single-character subwords.
- Abstract(参考訳): 音声キーワード検索では、このクエリは音声認識システムの訓練時に観察されない語彙外単語(OOV)を含むことができる。
サブワード言語モデル(LM)をファーストパス認識で使用することで、OOVワードを認識できるが、サブワードのn-gram LMでさえデータ間隔に悩まされる。
リカレントニューラルネットワーク(RNN) LMは、スパーシリティ問題を緩和するが、ファーストパス認識には適さない。
この問題を解決する方法の1つは、n-gramモデルのバックオフによるRNNLMの近似である。
本稿では,従来のn-gramモデルとRNNLM近似を補間してOOV認識を改善することを提案する。
さらに, 単語単位に適した新しいrnnlm近似法を開発し, 長スパン近似を含む可変次 n-gram を生成し, トレーニングコーパスでは当初観測されなかった n-gram も考慮した。
これらのモデルをoov上で評価するために,アラビア語とフィンランド語のキーワード検索タスクをoov単語のみに設定した。
これらのタスクにおいて、ベースライン RNNLM 近似と従来の LM の補間は、単一文字サブワードの最大項重み値において従来の LM よりも優れている。
さらに,ベースライン近似を提案手法に置き換えることで,複数文字と単一文字のサブワードで最高の性能が得られる。
関連論文リスト
- Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Investigating the Effect of Language Models in Sequence Discriminative
Training for Neural Transducers [36.60689278751483]
文脈長の異なる言語モデル (LM) と, 逐次識別訓練に用いるラベル単位 (音素対単語) の効果について検討した。
Librispeech 実験の結果,単語レベルLM は音素レベルLM よりも優れていた。
この結果から, 系列識別訓練における仮説空間の質の重要性が示唆された。
論文 参考訳(メタデータ) (2023-10-11T09:53:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - A Comparison of Methods for OOV-word Recognition on a New Public Dataset [0.0]
我々はCommonVoiceデータセットを用いて、語彙外比の高い言語のためのテストセットを作成することを提案する。
次に、ハイブリッドASRシステムのコンテキストにおいて、OOVの認識において、サブワードモデルがどの程度優れているかを評価する。
OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T19:39:30Z) - Deep learning models for representing out-of-vocabulary words [1.4502611532302039]
本稿では,語彙外(OOV)単語を表現するためのディープラーニングモデルの性能評価を行う。
OOV単語を扱うための最善のテクニックはタスクごとに異なるが、OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickは、有望な結果を得た。
論文 参考訳(メタデータ) (2020-07-14T19:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。