論文の概要: Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models
- arxiv url: http://arxiv.org/abs/2104.05544v1
- Date: Mon, 12 Apr 2021 15:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:34:10.539008
- Title: Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models
- Title(参考訳): 注意型エンコーダ・デコーダASRモデルの言語モデル統合改善手法の検討
- Authors: Mohammad Zeineldeen, Aleksandr Glushko, Wilfried Michel, Albert Zeyer,
Ralf Schl\"uter, Hermann Ney
- Abstract要約: 注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
- 参考スコア(独自算出の注目度): 107.86965028729517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based encoder-decoder (AED) models learn an implicit internal
language model (ILM) from the training transcriptions. The integration with an
external LM trained on much more unpaired text usually leads to better
performance. A Bayesian interpretation as in the hybrid autoregressive
transducer (HAT) suggests dividing by the prior of the discriminative acoustic
model, which corresponds to this implicit LM, similarly as in the hybrid hidden
Markov model approach. The implicit LM cannot be calculated efficiently in
general and it is yet unclear what are the best methods to estimate it. In this
work, we compare different approaches from the literature and propose several
novel methods to estimate the ILM directly from the AED model. Our proposed
methods outperform all previous approaches. We also investigate other methods
to suppress the ILM mainly by decreasing the capacity of the AED model,
limiting the label context, and also by training the AED model together with a
pre-existing LM.
- Abstract(参考訳): 注意に基づくエンコーダ・デコーダ(AED)モデルは、トレーニングの書き起こしから暗黙的な内部言語モデル(ILM)を学ぶ。
より不自由なテキストでトレーニングされた外部LMとの統合は通常、より良いパフォーマンスをもたらす。
ハイブリット自己回帰変換器(HAT)のようなベイズ的解釈は、ハイブリッド隠れマルコフモデルアプローチと同様に、この暗黙のLMに対応する識別音響モデルの先行による分割を示唆している。
暗黙の lm は一般には効率的に計算できず、それを推定する最善の方法が何であるかは定かではない。
本研究では,文献と異なるアプローチを比較し,ALDモデルから直接ILMを推定する新しい手法を提案する。
提案手法は従来の手法よりも優れている。
また,ALDモデルのキャパシティを低下させ,ラベルコンテキストを制限し,既存のLMとともにAMDモデルをトレーニングすることにより,ILMを抑制する他の手法についても検討する。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Internal language model estimation through explicit context vector
learning for attention-based encoder-decoder ASR [19.233720469733797]
本稿では,Lens-Attend-Spell(LAS)モデルに基づく2つの新しい手法を提案する。
実験の結果,提案手法により推定されたILMは最も低いパープレキシティを実現することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:47:27Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。