論文の概要: Internal Language Model Estimation based Language Model Fusion for
Cross-Domain Code-Switching Speech Recognition
- arxiv url: http://arxiv.org/abs/2207.04176v1
- Date: Sat, 9 Jul 2022 02:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 15:44:01.402004
- Title: Internal Language Model Estimation based Language Model Fusion for
Cross-Domain Code-Switching Speech Recognition
- Title(参考訳): クロスドメインコード切り換え音声認識のための内部言語モデル推定に基づく言語モデル融合
- Authors: Yizhou Peng, Yufei Liu, Jicheng Zhang, Haihua Xu, Yi He, Hao Huang and
Eng Siong Chng
- Abstract要約: 内部言語モデル推定(ILME)に基づく言語モデル(LM)融合は認識結果を著しく改善した。
本稿では,ILME法をクロスドメインコードスイッチング音声認識(CSSR)作業に適用する。
- 参考スコア(独自算出の注目度): 22.160640677644558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internal Language Model Estimation (ILME) based language model (LM) fusion
has been shown significantly improved recognition results over conventional
shallow fusion in both intra-domain and cross-domain speech recognition tasks.
In this paper, we attempt to apply our ILME method to cross-domain
code-switching speech recognition (CSSR) work. Specifically, our curiosity
comes from several aspects. First, we are curious about how effective the
ILME-based LM fusion is for both intra-domain and cross-domain CSSR tasks. We
verify this with or without merging two code-switching domains. More
importantly, we train an end-to-end (E2E) speech recognition model by means of
merging two monolingual data sets and observe the efficacy of the proposed
ILME-based LM fusion for CSSR. Experimental results on SEAME that is from
Southeast Asian and another Chinese Mainland CS data set demonstrate the
effectiveness of the proposed ILME-based LM fusion method.
- Abstract(参考訳): 内部言語モデル推定(ILME)に基づく言語モデル(LM)融合は、ドメイン内およびクロスドメイン音声認識タスクにおいて、従来の浅層融合よりも認識結果を有意に改善している。
本稿では,クロスドメインコード切り換え音声認識(cssr)作業にilme法を適用することを試みる。
具体的には、好奇心はいくつかの側面から来ています。
まず、ILMEベースのLM融合がドメイン内のCSSRタスクとクロスドメインCSSRタスクの両方にどの程度効果的かに興味があります。
これを2つのコードスイッチングドメインとマージしなくても検証できます。
さらに,2つの単言語データセットを融合してエンドツーエンド(E2E)音声認識モデルを訓練し,提案したILME LM fusion for CSSRの有効性を検証した。
東南アジアと中国本土のCSデータセットであるSEAMEの実験結果から,ILMEを用いたLM融合法の有効性が示された。
関連論文リスト
- Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。
言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。
我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文 参考訳(メタデータ) (2023-12-18T06:40:24Z) - Acoustic Model Fusion for End-to-end Speech Recognition [7.431401982826315]
音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
論文 参考訳(メタデータ) (2023-10-10T23:00:17Z) - Monolingual Recognizers Fusion for Code-switching Speech Recognition [43.38810173824711]
CS ASRのための単言語認識器融合法を提案する。
言語認知ステージと言語融合ステージの2つのステージがある。
マンダリン・イングリッシュコーパスの実験では,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-02T11:24:26Z) - Internal Language Model Estimation based Adaptive Language Model Fusion
for Domain Adaptation [12.239557608053156]
内部言語モデル推定に基づく適応的ドメイン適応(ILME-ADA)と呼ばれる適応的LM融合手法を提案する。
本稿では、ニューラルネットワークとn-gram LMをEMMとして用いたRNN-TおよびLASモデリングフレームワークを用いたILME-ADA法の有効性を、2つのドメイン固有(ターゲット)テストセットで示す。
論文 参考訳(メタデータ) (2022-11-02T09:15:20Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。