論文の概要: Early Stage LM Integration Using Local and Global Log-Linear Combination
- arxiv url: http://arxiv.org/abs/2005.10049v1
- Date: Wed, 20 May 2020 13:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 04:39:39.152503
- Title: Early Stage LM Integration Using Local and Global Log-Linear Combination
- Title(参考訳): 局所とグローバルな対数線の組み合わせによる早期LM統合
- Authors: Wilfried Michel and Ralf Schl\"uter and Hermann Ney
- Abstract要約: 暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 46.91755970827846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence models with an implicit alignment mechanism (e.g.
attention) are closing the performance gap towards traditional hybrid hidden
Markov models (HMM) for the task of automatic speech recognition. One important
factor to improve word error rate in both cases is the use of an external
language model (LM) trained on large text-only corpora. Language model
integration is straightforward with the clear separation of acoustic model and
language model in classical HMM-based modeling. In contrast, multiple
integration schemes have been proposed for attention models. In this work, we
present a novel method for language model integration into implicit-alignment
based sequence-to-sequence models. Log-linear model combination of acoustic and
language model is performed with a per-token renormalization. This allows us to
compute the full normalization term efficiently both in training and in
testing. This is compared to a global renormalization scheme which is
equivalent to applying shallow fusion in training. The proposed methods show
good improvements over standard model combination (shallow fusion) on our
state-of-the-art Librispeech system. Furthermore, the improvements are
persistent even if the LM is exchanged for a more powerful one after training.
- Abstract(参考訳): 暗黙的なアライメント機構(注意など)を持つシーケンス-シーケンスモデルでは、自動音声認識タスクのための従来のハイブリッド隠れマルコフモデル(hmm)に対するパフォーマンスギャップが解消されている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
言語モデルの統合は、古典的HMMに基づくモデリングにおいて、音響モデルと言語モデルの明確な分離により容易である。
対照的に、注意モデルのための複数の統合スキームが提案されている。
本研究では,暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
音響モデルと言語モデルの対数線形モデルの組み合わせは、トーケン毎に正規化される。
これにより、トレーニングとテストの両方において、完全な正規化項を効率的に計算できます。
これは、訓練に浅い融合を適用するのと同等のグローバル再正規化スキームと比較される。
提案手法は,我々の最先端Librispeechシステムにおける標準モデル組合せ(浅層融合)よりも優れた改善を示す。
さらに、LMをトレーニング後により強力なものと交換しても改善は持続する。
関連論文リスト
- No Need to Talk: Asynchronous Mixture of Language Models [25.3581396758015]
SmallTalk LMは、ほぼ非同期な方法で言語モデルの混合を訓練する革新的な方法である。
本研究では,SmallTalk LM が,FLOP とほぼ同一の推論コストに対して,高密度モデルベースラインよりも有意に低いパープレキシティを実現することを示す。
論文 参考訳(メタデータ) (2024-10-04T15:50:10Z) - HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。
異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。
BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文 参考訳(メタデータ) (2024-09-27T22:42:45Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Normalizing Flow based Hidden Markov Models for Classification of Speech
Phones with Explainability [25.543231171094384]
説明可能性を求めるため,逐次データ生成モデルを開発した。
我々は、現代のニューラルネットワーク(正規化フロー)と伝統的な生成モデル(隠れマルコフモデル - HMM)を組み合わせる。
提案した生成モデルは、データの可能性を計算することができ、従って、最大形分類法(ML)に直接適合する。
論文 参考訳(メタデータ) (2021-07-01T20:10:55Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - Hybrid Autoregressive Transducer (hat) [11.70833387055716]
本稿では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの提案と評価を行う。
従来の音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルである。
提案手法を大規模音声検索タスクで評価する。
論文 参考訳(メタデータ) (2020-03-12T20:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。