論文の概要: On Language Model Integration for RNN Transducer based Speech
Recognition
- arxiv url: http://arxiv.org/abs/2110.06841v1
- Date: Wed, 13 Oct 2021 16:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:52:28.377378
- Title: On Language Model Integration for RNN Transducer based Speech
Recognition
- Title(参考訳): RNNトランスデューサを用いた音声認識のための言語モデル統合について
- Authors: Wei Zhou, Zuoyun Zheng, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.84285563767935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mismatch between an external language model (LM) and the implicitly
learned internal LM (ILM) of RNN-Transducer (RNN-T) can limit the performance
of LM integration such as simple shallow fusion. A Bayesian interpretation
suggests to remove this sequence prior as ILM correction. In this work, we
study various ILM correction-based LM integration methods formulated in a
common RNN-T framework. We provide a decoding interpretation on two major
reasons for performance improvement with ILM correction, which is further
experimentally verified with detailed analysis. We also propose an exact-ILM
training framework by extending the proof given in the hybrid autoregressive
transducer, which enables a theoretical justification for other ILM approaches.
Systematic comparison is conducted for both in-domain and cross-domain
evaluation on the Librispeech and TED-LIUM Release 2 corpora, respectively. Our
proposed exact-ILM training can further improve the best ILM method.
- Abstract(参考訳): RNN-Transducer(RNN-T)の外部言語モデル(LM)と暗黙的に学習された内部LM(ILM)とのミスマッチは、単純な浅い融合のようなLM統合の性能を制限することができる。
ベイズ解釈は、ILM補正に先立ってこのシーケンスを削除することを示唆している。
本研究では,共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM統合手法について検討する。
ilm補正による性能改善の2つの主な理由について復号化解釈を行い,詳細な解析によりさらに検証した。
また,他のILM手法の理論的正当化を可能にするハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
librispeechとted-lium release 2 corporaのin-domainとcross-domainの比較を行った。
提案する完全ilm訓練は,最良のilm法をさらに改善することができる。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z) - Internal Language Model Estimation based Adaptive Language Model Fusion
for Domain Adaptation [12.239557608053156]
内部言語モデル推定に基づく適応的ドメイン適応(ILME-ADA)と呼ばれる適応的LM融合手法を提案する。
本稿では、ニューラルネットワークとn-gram LMをEMMとして用いたRNN-TおよびLASモデリングフレームワークを用いたILME-ADA法の有効性を、2つのドメイン固有(ターゲット)テストセットで示す。
論文 参考訳(メタデータ) (2022-11-02T09:15:20Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。