論文の概要: On Language Model Integration for RNN Transducer based Speech
Recognition
- arxiv url: http://arxiv.org/abs/2110.06841v1
- Date: Wed, 13 Oct 2021 16:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:52:28.377378
- Title: On Language Model Integration for RNN Transducer based Speech
Recognition
- Title(参考訳): RNNトランスデューサを用いた音声認識のための言語モデル統合について
- Authors: Wei Zhou, Zuoyun Zheng, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.84285563767935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mismatch between an external language model (LM) and the implicitly
learned internal LM (ILM) of RNN-Transducer (RNN-T) can limit the performance
of LM integration such as simple shallow fusion. A Bayesian interpretation
suggests to remove this sequence prior as ILM correction. In this work, we
study various ILM correction-based LM integration methods formulated in a
common RNN-T framework. We provide a decoding interpretation on two major
reasons for performance improvement with ILM correction, which is further
experimentally verified with detailed analysis. We also propose an exact-ILM
training framework by extending the proof given in the hybrid autoregressive
transducer, which enables a theoretical justification for other ILM approaches.
Systematic comparison is conducted for both in-domain and cross-domain
evaluation on the Librispeech and TED-LIUM Release 2 corpora, respectively. Our
proposed exact-ILM training can further improve the best ILM method.
- Abstract(参考訳): RNN-Transducer(RNN-T)の外部言語モデル(LM)と暗黙的に学習された内部LM(ILM)とのミスマッチは、単純な浅い融合のようなLM統合の性能を制限することができる。
ベイズ解釈は、ILM補正に先立ってこのシーケンスを削除することを示唆している。
本研究では,共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM統合手法について検討する。
ilm補正による性能改善の2つの主な理由について復号化解釈を行い,詳細な解析によりさらに検証した。
また,他のILM手法の理論的正当化を可能にするハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
librispeechとted-lium release 2 corporaのin-domainとcross-domainの比較を行った。
提案する完全ilm訓練は,最良のilm法をさらに改善することができる。
関連論文リスト
- DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be
Better Context-aware Translators [27.813977167057892]
DeMPT(Decoding-enhanced Multi-phase Prompt Tuning)という適応手法を提案する。
各フェーズで異なる連続プロンプトを導入し、LLMを様々な情報を識別的にモデル化する。
実験の結果,本手法は結合法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-02-23T09:01:00Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - On the Relation between Internal Language Model and Sequence
Discriminative Training for Neural Transducers [36.60689278751483]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z) - Internal Language Model Estimation based Adaptive Language Model Fusion
for Domain Adaptation [12.239557608053156]
内部言語モデル推定に基づく適応的ドメイン適応(ILME-ADA)と呼ばれる適応的LM融合手法を提案する。
本稿では、ニューラルネットワークとn-gram LMをEMMとして用いたRNN-TおよびLASモデリングフレームワークを用いたILME-ADA法の有効性を、2つのドメイン固有(ターゲット)テストセットで示す。
論文 参考訳(メタデータ) (2022-11-02T09:15:20Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。