Fugu-MT 論文翻訳(概要): Efficient Streaming LLM for Speech Recognition

論文の概要: Efficient Streaming LLM for Speech Recognition

arxiv url: http://arxiv.org/abs/2410.03752v1
Date: Wed, 2 Oct 2024 01:54:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 16:40:48.954947
Title: Efficient Streaming LLM for Speech Recognition
Title（参考訳）: 音声認識のための効率的なストリーミングLLM
Authors: Junteng Jia, Gil Keren, Wei Zhou, Egor Lakomkin, Xiaohui Zhang, Chunyang Wu, Frank Seide, Jay Mahadeokar, Ozlem Kalinli,
Abstract要約: SpeechLLM-XLは、ストリーミング音声認識のための線形スケーリングデコーダのみのモデルである。訓練発話の10倍の長文発声に対して品質劣化を生じさせない。
参考スコア（独自算出の注目度）: 23.151980358518102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works have shown that prompting large language models with audio encodings can unlock speech recognition capabilities. However, existing techniques do not scale efficiently, especially while handling long form streaming audio inputs -- not only do they extrapolate poorly beyond the audio length seen during training, but they are also computationally inefficient due to the quadratic cost of attention. In this work, we introduce SpeechLLM-XL, a linear scaling decoder-only model for streaming speech recognition. We process audios in configurable chunks using limited attention window for reduced computation, and the text tokens for each audio chunk are generated auto-regressively until an EOS is predicted. During training, the transcript is segmented into chunks, using a CTC forced alignment estimated from encoder output. SpeechLLM-XL with 1.28 seconds chunk size achieves 2.7%/6.7% WER on LibriSpeech test clean/other, and it shows no quality degradation on long form utterances 10x longer than the training utterances.
Abstract（参考訳）: 近年の研究では、大きな言語モデルに音声符号化を施すことで、音声認識能力を解き放つことが示されている。しかし、既存のテクニックは、特に長い形式のストリーミングオーディオ入力を扱う場合、効率的にスケールしない -- トレーニング中に見られるオーディオ長をはるかに超過するだけでなく、注意の二次的なコストのために計算的に非効率である。本研究では,ストリーミング音声認識のための線形スケーリングデコーダモデルであるSpeechLLM-XLを提案する。制限されたアテンションウィンドウを用いて構成可能なチャンクで音声を処理し、EOSが予測されるまで、各チャンクのテキストトークンを自動回帰的に生成する。トレーニング中は、エンコーダ出力から推定されるCTC強制アライメントを使用して、トランスクリプトをチャンクに分割する。 1.28秒のチャンクサイズを持つSpeechLLM-XLは、LibriSpeechテストで2.7%/6.7%のWERを達成する。

関連論文リスト

Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。 Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文参考訳（メタデータ） (2025-12-23T08:35:27Z)
Towards Audio Token Compression in Large Audio Language Models [26.379508239446935]
大規模オーディオ言語モデル(LALM)は、様々なタスクにまたがる素晴らしいパフォーマンスを示している。しかし、そのスケーラビリティは、注意の二次的な複雑さと、音声信号の高いトークンレートによって制限される。本稿では,LALMのオーディオエンコーダが生成する音声トークン数を,LCMデコーダが消費する前に削減する手法について検討する。
論文参考訳（メタデータ） (2025-11-26T02:00:38Z)
Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization [3.7046278530385894]
本稿では,ストリーミングとオフライン両方の事前学習のための統合ソリューションとして,チャンクベースの自己教師型学習(Chunk SSL)アルゴリズムを提案する。チャンクSSLはマスク付き予測損失に最適化され、音響エンコーダはそれらのマスク付き音声フレームのインデックスを復元するよう推奨される。 scLibri と textscMust-C データセットによる実験結果から,提案手法は,ストリーミングモードとオフラインモードの両方において,音声からテキストへのタスクに対して非常に競争力のある結果が得られることが示された。
論文参考訳（メタデータ） (2025-09-19T04:29:59Z)
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文参考訳（メタデータ） (2025-02-24T15:16:34Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。 SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文参考訳（メタデータ） (2024-10-05T04:29:55Z)
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文参考訳（メタデータ） (2024-09-18T16:39:10Z)
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。 XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文参考訳（メタデータ） (2024-03-21T13:52:17Z)
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文参考訳（メタデータ） (2023-10-07T03:17:59Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Attentional Speech Recognition Models Misbehave on Out-of-domain Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文参考訳（メタデータ） (2020-02-12T18:53:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。