論文の概要: MTLM: Incorporating Bidirectional Text Information to Enhance Language Model Training in Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2502.10058v2
- Date: Sat, 14 Jun 2025 12:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:29.889328
- Title: MTLM: Incorporating Bidirectional Text Information to Enhance Language Model Training in Speech Recognition Systems
- Title(参考訳): MTLM:音声認識システムにおける言語モデル学習のための双方向テキスト情報の導入
- Authors: Qingliang Meng, Pengju Ren, Tian Li, Changsong Dai, Huizhi Liang,
- Abstract要約: MTLMは、3つのトレーニング目標を通じて一方向と双方向の方法を統一する新しいトレーニングパラダイムである。
浅い融合、一方向/双方向のn-best再構成など、複数の復号化戦略をサポートしている。
LibriSpeechデータセットの実験は、MTLMが複数のデコード戦略で一方向トレーニングを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 8.971049629873185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) systems normally consist of an acoustic model (AM) and a language model (LM). The acoustic model estimates the probability distribution of text given the input speech, while the language model calibrates this distribution toward a specific knowledge domain to produce the final transcription. Traditional ASR-specific LMs are typically trained in a unidirectional (left-to-right) manner to align with autoregressive decoding. However, this restricts the model from leveraging the right-side context during training, limiting its representational capacity. In this work, we propose MTLM, a novel training paradigm that unifies unidirectional and bidirectional manners through 3 training objectives: ULM, BMLM, and UMLM. This approach enhances the LM's ability to capture richer linguistic patterns from both left and right contexts while preserving compatibility with standard ASR autoregressive decoding methods. As a result, the MTLM model not only enhances the ASR system's performance but also support multiple decoding strategies, including shallow fusion, unidirectional/bidirectional n-best rescoring. Experiments on the LibriSpeech dataset show that MTLM consistently outperforms unidirectional training across multiple decoding strategies, highlighting its effectiveness and flexibility in ASR applications.
- Abstract(参考訳): 自動音声認識(ASR)システムは通常、音響モデル(AM)と言語モデル(LM)から構成される。
音声モデルは入力された音声の確率分布を推定し、言語モデルは、この分布を特定の知識領域に向けて校正し、最終的な転写を生成する。
従来のASR固有のLMは、一方向(左右)で自動回帰復号と整合するように訓練される。
しかし、これはモデルがトレーニング中に右側のコンテキストを活用することを制限し、表現能力を制限する。
本研究では, MTLM, MTLM, BMLM, UMLMの3つの学習目標を通じて一方向および双方向の手法を統一する新しい訓練パラダイムを提案する。
このアプローチは、標準のASR自己回帰復号法との互換性を維持しながら、左右両方の文脈からよりリッチな言語パターンをキャプチャする能力を高める。
その結果、MTLMモデルはASRシステムの性能を向上するだけでなく、浅い融合、一方向/双方向のn-best再構成を含む複数の復号化戦略もサポートしている。
LibriSpeechデータセットの実験によると、MTLMは複数のデコード戦略で一方向トレーニングを一貫して上回り、ASRアプリケーションの有効性と柔軟性を強調している。
関連論文リスト
- Transducer-Llama: Integrating LLMs into Streamable Transducer-based Speech Recognition [26.79555533538622]
本稿では,大規模言語モデル(LLM)をFactized Transducer(FT)モデルに統合する新しいモデルアーキテクチャであるTransducer-Llamaを提案する。
提案されたストリーミングTransducer-Llamaアプローチは、強いFTベースラインに17%の相対的なWER削減(WERR)、RNN-Tベースラインに32%のWERRを与えた。
論文 参考訳(メタデータ) (2024-12-21T03:35:49Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be Better Context-aware Translators [26.665489056201725]
DeMPT(Decoding-enhanced Multi-phase Prompt Tuning)という適応手法を提案する。
各フェーズで異なる連続プロンプトを導入し、LLMを様々な情報を識別的にモデル化する。
実験の結果,本手法は結合法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-02-23T09:01:00Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - Interpreting Learned Feedback Patterns in Large Language Models [11.601799960959214]
我々は、微調整言語モデルのアクティベーションにおいて暗黙的にフィードバック信号を推定するプローブを訓練する。
これらの推定値を真のフィードバックと比較し、LFPの精度を微調整フィードバックと比較する。
我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。