論文の概要: MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.03722v1
- Date: Wed, 04 Jun 2025 08:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.244994
- Title: MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition
- Title(参考訳): MFLA:ストリーミング音声認識のためのモノトニック有限ルックアヘッドアテンション
- Authors: Yinfeng Xia, Huiyan Li, Chenyang Le, Manhong Wang, Yutao Sun, Xingyang Ma, Yanmin Qian,
- Abstract要約: 本研究では,連続音声シーケンスと離散テキストトークン間の準モノトニックアライメントを確立するための連続積分とファイア機構を提案する。
また、モノトニック・フィニット・ルック・アヘッド・アテンションを設計し、各トークンが音声列から無限の左コンテキストと有限の右コンテキストに到達できるようにする。
- 参考スコア(独自算出の注目度): 33.87915567709033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying large pre-trained speech models like Whisper has shown promise in reducing training costs for various speech tasks. However, integrating these models into streaming systems remains a challenge. This paper presents a novel prefix-to-prefix training framework for streaming recognition by fine-tuning the Whisper. We introduce the Continuous Integrate-and-Fire mechanism to establish a quasi-monotonic alignment between continuous speech sequences and discrete text tokens. Additionally, we design Monotonic Finite Look-ahead Attention, allowing each token to attend to infinite left-context and finite right-context from the speech sequences. We also employ the wait-k decoding strategy to simplify the decoding process while ensuring consistency between training and testing. Our theoretical analysis and experiments demonstrate that this approach achieves a controllable trade-off between latency and quality, making it suitable for various streaming applications.
- Abstract(参考訳): Whisperのような大規模な事前訓練された音声モデルを適用することで、様々な音声タスクのトレーニングコストを削減できる。
しかし、これらのモデルをストリーミングシステムに統合することは依然として課題である。
本稿では,Whisperを微調整することで,ストリーミング認識のためのプレフィックストレーニングフレームワークを提案する。
本研究では,連続音声シーケンスと離散テキストトークン間の準モノトニックアライメントを確立するための連続積分とファイア機構を提案する。
さらに、モノトニック・有限ルックアヘッド・アテンションを設計し、各トークンが音声列から無限左コンテキストと有限右コンテキストに到達できるようにする。
また、トレーニングとテストの一貫性を確保しながら、復号プロセスを簡素化するために、wait-kデコーディング戦略を採用しています。
理論的解析と実験により、このアプローチはレイテンシと品質のトレードオフを制御可能であることが示され、様々なストリーミングアプリケーションに適している。
関連論文リスト
- Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。
提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。
実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T07:31:55Z) - Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network [17.91342898415867]
既存のATFL手法は、細かいアノテーションを使って効率的なネットワークを訓練することに依存している。
そこで本稿では,ローカライズ性能を高めるために,協調学習と自己超越的手法を取り入れたプログレッシブ・オーディオ・コラーニング・ネットワーク(LOCO)を提案する。
提案したLOCOは3つの公開ベンチマークでSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-03T17:57:57Z) - InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。
InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。
提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文 参考訳(メタデータ) (2025-03-04T16:34:14Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。