論文の概要: Boosting CTC-Based ASR Using LLM-Based Intermediate Loss Regularization
- arxiv url: http://arxiv.org/abs/2506.22846v1
- Date: Sat, 28 Jun 2025 10:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.59804
- Title: Boosting CTC-Based ASR Using LLM-Based Intermediate Loss Regularization
- Title(参考訳): LLM-based Intermediate Loss regularization を用いたCTC-based ASRの高速化
- Authors: Duygu Altinok,
- Abstract要約: 本稿では,CTCに基づく音声認識システムを強化するために,Language-Aware Intermediate Loss (LAIL) と呼ばれる新たな補助的損失フレームワークを提案する。
LAILは出力を大規模言語モデル(LLM)の埋め込み空間にマッピングし、トレーニング中に因果言語モデリング損失を計算する。
計算オーバーヘッドが最小限に抑えられたCTCベースのASRにおいて, ワード誤り率(WER)をLibriSpeech, TEDLium2, WSJコーパスで大幅に改善し, 最先端性能を実現した。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: End-to-end (E2E) automatic speech recognition (ASR) systems have revolutionized the field by integrating all components into a single neural network, with attention-based encoder-decoder models achieving state-of-the-art performance. However, their autoregressive decoding process limits inference speed, making them unsuitable for real-time applications. In contrast, CTC-based models offer faster, non-autoregressive decoding but struggle to model linguistic dependencies effectively. Addressing this challenge, we propose a novel auxiliary loss framework called Language-Aware Intermediate Loss (LAIL) to enhance CTC-based ASR using the linguistic knowledge of large language models (LLMs). By attaching connector layers to intermediate encoder layers, LAIL maps outputs to the embedding space of an LLM and computes a causal language modeling loss during training. This approach enhances linguistic modeling while preserving the computational efficiency of CTC decoding. Using the Conformer architecture and various LLaMA models, we demonstrate significant improvements in Word Error Rate (WER) on the LibriSpeech, TEDLIUM2, and WSJ corpora, achieving state-of-the-art performance for CTC-based ASR with minimal computational overhead.
- Abstract(参考訳): エンド・ツー・エンド(E2E)自動音声認識(ASR)システムは、すべてのコンポーネントを単一のニューラルネットワークに統合することで、最先端のパフォーマンスを達成するための注目ベースのエンコーダ・デコーダモデルによって、この分野に革命をもたらした。
しかし、自動回帰復号処理は推論速度を制限し、リアルタイムアプリケーションには適さない。
対照的に、CTCベースのモデルはより高速で非自己回帰的なデコーディングを提供するが、言語依存を効果的にモデル化するのは難しい。
この課題に対処するために,大規模言語モデル(LLM)の言語知識を用いてCTCベースのASRを強化するために,Language-Aware Intermediate Loss (LAIL) と呼ばれる新たな補助的損失フレームワークを提案する。
中間エンコーダ層にコネクタ層をアタッチすることで、LAILは出力をLLMの埋め込み空間にマッピングし、トレーニング中に因果言語モデリング損失を計算する。
このアプローチはCTC復号の計算効率を保ちながら言語モデルを強化する。
The Conformer Architecture and various LLaMA model, we demonstrate significant improve in Word Error Rate (WER) on the LibriSpeech, TEDLium2, WSJ corpora, which achieved to state-of-the-art performance for CTC-based ASR with minimal compute overhead。
関連論文リスト
- NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture [0.0]
ICVは言語モデルの潜在埋め込みを用いて、コンテキスト内学習をリキャストする。
ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。
論文 参考訳(メタデータ) (2025-02-07T04:24:07Z) - CTC-Assisted LLM-Based Contextual ASR [40.6542391788212]
効率的なフィルタリングアルゴリズムを用いたCTC支援LLM型コンテキストASRモデルを提案する。
我々のモデルは、稀に長い尾の単語を認識することを目的とした、Librispeechテストクリーンおよびテストサブセットにおいて1.27%/3.67%のWER/B-WERと2.72%/8.02%のWERを達成している。
論文 参考訳(メタデータ) (2024-11-10T11:47:50Z) - E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning [20.660297311025417]
E2LLM (Encodergated Large Language Models) は「不可能な三角形」を効果的にナビゲートする新しい手法である。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
論文 参考訳(メタデータ) (2024-09-10T17:44:35Z) - PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding [44.77985942208969]
PRoDeliberationは、コネクショニストの時間分類に基づくデコード戦略を活用する新しい手法であり、堅牢な非自己回帰的デリベレーションモデルをトレーニングするための認知的目標である。
PRoDeliberationは,自動音声認識(ASR)の誤り書き起こしを補正する能力を維持しつつ,並列デコーディングの遅延低減(自己回帰モデルよりも2~10倍改善)を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:46:17Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。