論文の概要: MTLM: an Innovative Language Model Training Paradigm for ASR
- arxiv url: http://arxiv.org/abs/2502.10058v1
- Date: Fri, 14 Feb 2025 10:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:26.246795
- Title: MTLM: an Innovative Language Model Training Paradigm for ASR
- Title(参考訳): MTLM: ASRのための革新的言語モデルトレーニングパラダイム
- Authors: Qingliang Meng, Pengju Ren, Tian Li, Changsong Dai,
- Abstract要約: 本稿では、従来の一方向のLMが左右のコンテキストを完全に活用できるような、LMのトレーニング手法を提案する。
一方向のLMと比較して、私たちのLMは、ASRがより一貫して、より意味的に曖昧な方法で仮説を転写するのを促進します。
- 参考スコア(独自算出の注目度): 8.0121140111532
- License:
- Abstract: Pre-training Transformer-based language models (LMs) on a large amount of text has proven crucial for improving automatic speech recognition (ASR) performance. Generally, traditional LMs are unidirectional and unable to access the context on the right. This paper proposes a method for training LMs that enable traditional unidirectional LMs to fully utilize left and right contexts. Compared with the unidirectional LMs, our LM facilitates ASR to transcribe hypotheses more consistently and in a more semantically unambiguous way, as it incorporates richer contextual representations. Finally, our experimental results on the LibriSpeech corpus demonstrate that our model outperforms traditional unidirectional LMs, whether n-best rescoring or shallow fusion is used as the decoding algorithm.
- Abstract(参考訳): 大量のテキスト上でのトランスフォーマーベース言語モデル(LM)の事前学習は,音声認識(ASR)の性能向上に不可欠であることが証明されている。
一般的に、従来のLMは一方向であり、右側のコンテキストにアクセスすることができない。
本稿では、従来の一方向のLMが左右のコンテキストを完全に活用できるような、LMのトレーニング手法を提案する。
我々のLMは、一方向のLMと比較して、よりリッチな文脈表現を含むため、ASRが仮説をより一貫して、より意味的に曖昧に書き起こすのに役立ちます。
最後に,LibriSpeechコーパスの実験結果から,このモデルが従来の一方向のLMよりも優れており,n-best再コーディングや浅部融合がデコードアルゴリズムとして用いられていることを示す。
関連論文リスト
- Transducer-Llama: Integrating LLMs into Streamable Transducer-based Speech Recognition [26.79555533538622]
本稿では,大規模言語モデル(LLM)をFactized Transducer(FT)モデルに統合する新しいモデルアーキテクチャであるTransducer-Llamaを提案する。
提案されたストリーミングTransducer-Llamaアプローチは、強いFTベースラインに17%の相対的なWER削減(WERR)、RNN-Tベースラインに32%のWERRを与えた。
論文 参考訳(メタデータ) (2024-12-21T03:35:49Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be Better Context-aware Translators [26.665489056201725]
DeMPT(Decoding-enhanced Multi-phase Prompt Tuning)という適応手法を提案する。
各フェーズで異なる連続プロンプトを導入し、LLMを様々な情報を識別的にモデル化する。
実験の結果,本手法は結合法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-02-23T09:01:00Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。