論文の概要: Chunk-wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text
- arxiv url: http://arxiv.org/abs/2602.24245v1
- Date: Fri, 27 Feb 2026 18:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.557645
- Title: Chunk-wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text
- Title(参考訳): 高速かつ高精度な音声テキスト合成のためのチャンクワイズアテンショントランスデューサ
- Authors: Hainan Xu, Vladimir Bataev, Travis M. Bartley, Jagadeesh Balam,
- Abstract要約: Chunk-wise Attention Transducer (CHAT)は、RNN-Tモデルの新たな拡張であり、各チャンク内でクロスアテンションを使用しながら、固定サイズのチャンクでオーディオを処理する。
以上の結果から,CHATモデルはリアルタイム制約を犠牲にすることなく,より有能なストリーミング音声モデルをデプロイするための実用的なソリューションを提供することが示された。
- 参考スコア(独自算出の注目度): 19.1160706519659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Chunk-wise Attention Transducer (CHAT), a novel extension to RNN-T models that processes audio in fixed-size chunks while employing cross-attention within each chunk. This hybrid approach maintains RNN-T's streaming capability while introducing controlled flexibility for local alignment modeling. CHAT significantly reduces the temporal dimension that RNN-T must handle, yielding substantial efficiency improvements: up to 46.2% reduction in peak training memory, up to 1.36X faster training, and up to 1.69X faster inference. Alongside these efficiency gains, CHAT achieves consistent accuracy improvements over RNN-T across multiple languages and tasks -- up to 6.3% relative WER reduction for speech recognition and up to 18.0% BLEU improvement for speech translation. The method proves particularly effective for speech translation, where RNN-T's strict monotonic alignment hurts performance. Our results demonstrate that the CHAT model offers a practical solution for deploying more capable streaming speech models without sacrificing real-time constraints.
- Abstract(参考訳): 本稿では,各チャンク内にクロスアテンションを適用しながら,一定サイズのチャンクで音声を処理するRNN-Tモデルの新たな拡張であるチャンクワイズアテンショントランスデューサ(CHAT)を提案する。
このハイブリッドアプローチは、ローカルアライメントモデリングのための制御された柔軟性を導入しながら、RNN-Tのストリーミング能力を維持できる。
CHATはRNN-Tが扱う時間次元を大幅に削減し、最大46.2%のピークトレーニングメモリ、最大1.36倍の高速トレーニング、最大1.69倍の高速推論を実現した。
これらの効率向上に加えて、CHATは複数の言語やタスクにわたるRNN-Tよりも一貫した精度の向上を実現している。
この手法は、RNN-Tの厳密な単調アライメントが性能を損なうような音声翻訳に特に有効である。
以上の結果から,CHATモデルはリアルタイム制約を犠牲にすることなく,より有能なストリーミング音声モデルをデプロイするための実用的なソリューションを提供することが示された。
関連論文リスト
- Speech-FT: Merging Pre-trained And Fine-Tuned Speech Representation Models For Cross-Task Generalization [51.56024241398741]
微調整された音声表現モデルは、特定のタスクのパフォーマンスを向上させることができるが、しばしばタスク間の一般化能力を損なう。
微調整中の重量変化の規則化のような既存のアプローチは、事前訓練されたモデルと十分に高い特徴的類似性を維持できない可能性がある。
本研究では,2段階のファインチューニングフレームワークであるSpeech-FTを提案する。
論文 参考訳(メタデータ) (2025-02-18T09:23:42Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。