論文の概要: Efficient Streaming LLM for Speech Recognition
- arxiv url: http://arxiv.org/abs/2410.03752v1
- Date: Wed, 2 Oct 2024 01:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:40:48.954947
- Title: Efficient Streaming LLM for Speech Recognition
- Title(参考訳): 音声認識のための効率的なストリーミングLLM
- Authors: Junteng Jia, Gil Keren, Wei Zhou, Egor Lakomkin, Xiaohui Zhang, Chunyang Wu, Frank Seide, Jay Mahadeokar, Ozlem Kalinli,
- Abstract要約: SpeechLLM-XLは、ストリーミング音声認識のための線形スケーリングデコーダのみのモデルである。
訓練発話の10倍の長文発声に対して品質劣化を生じさせない。
- 参考スコア(独自算出の注目度): 23.151980358518102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that prompting large language models with audio encodings can unlock speech recognition capabilities. However, existing techniques do not scale efficiently, especially while handling long form streaming audio inputs -- not only do they extrapolate poorly beyond the audio length seen during training, but they are also computationally inefficient due to the quadratic cost of attention. In this work, we introduce SpeechLLM-XL, a linear scaling decoder-only model for streaming speech recognition. We process audios in configurable chunks using limited attention window for reduced computation, and the text tokens for each audio chunk are generated auto-regressively until an EOS is predicted. During training, the transcript is segmented into chunks, using a CTC forced alignment estimated from encoder output. SpeechLLM-XL with 1.28 seconds chunk size achieves 2.7%/6.7% WER on LibriSpeech test clean/other, and it shows no quality degradation on long form utterances 10x longer than the training utterances.
- Abstract(参考訳): 近年の研究では、大きな言語モデルに音声符号化を施すことで、音声認識能力を解き放つことが示されている。
しかし、既存のテクニックは、特に長い形式のストリーミングオーディオ入力を扱う場合、効率的にスケールしない -- トレーニング中に見られるオーディオ長をはるかに超過するだけでなく、注意の二次的なコストのために計算的に非効率である。
本研究では,ストリーミング音声認識のための線形スケーリングデコーダモデルであるSpeechLLM-XLを提案する。
制限されたアテンションウィンドウを用いて構成可能なチャンクで音声を処理し、EOSが予測されるまで、各チャンクのテキストトークンを自動回帰的に生成する。
トレーニング中は、エンコーダ出力から推定されるCTC強制アライメントを使用して、トランスクリプトをチャンクに分割する。
1.28秒のチャンクサイズを持つSpeechLLM-XLは、LibriSpeechテストで2.7%/6.7%のWERを達成する。
関連論文リスト
- FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。
新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。
本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-18T16:39:10Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文 参考訳(メタデータ) (2020-02-12T18:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。