論文の概要: Improving Practical Aspects of End-to-End Multi-Talker Speech Recognition for Online and Offline Scenarios
- arxiv url: http://arxiv.org/abs/2506.14204v1
- Date: Tue, 17 Jun 2025 05:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.346652
- Title: Improving Practical Aspects of End-to-End Multi-Talker Speech Recognition for Online and Offline Scenarios
- Title(参考訳): オンライン・オフラインシナリオにおけるエンド・ツー・エンドマルチ話者音声認識の実践的側面の改善
- Authors: Aswin Shanmugam Subramanian, Amit Das, Naoyuki Kanda, Jinyu Li, Xiaofei Wang, Yifan Gong,
- Abstract要約: Serialized Output Training (SOT)は、ストリーミングおよびオフライン自動音声認識(ASR)アプリケーションの両方の実用的なニーズに対処する。
我々のアプローチは、レイテンシと精度のバランス、リアルタイムキャプションと要約要求への対応に焦点を当てている。
- 参考スコア(独自算出の注目度): 33.271537268488316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the frameworks of Serialized Output Training (SOT) to address practical needs of both streaming and offline automatic speech recognition (ASR) applications. Our approach focuses on balancing latency and accuracy, catering to real-time captioning and summarization requirements. We propose several key improvements: (1) Leveraging Continuous Speech Separation (CSS) single-channel front-end with end-to-end (E2E) systems for highly overlapping scenarios, challenging the conventional wisdom of E2E versus cascaded setups. The CSS framework improves the accuracy of the ASR system by separating overlapped speech from multiple speakers. (2) Implementing dual models -- Conformer Transducer for streaming and Sequence-to-Sequence for offline -- or alternatively, a two-pass model based on cascaded encoders. (3) Exploring segment-based SOT (segSOT) which is better suited for offline scenarios while also enhancing readability of multi-talker transcriptions.
- Abstract(参考訳): 我々はSOT(Serialized Output Training)のフレームワークを拡張し、ストリーミングおよびオフライン自動音声認識(ASR)アプリケーションの両方の実用的なニーズに対処する。
我々のアプローチは、レイテンシと精度のバランス、リアルタイムキャプションと要約要求への対応に焦点を当てている。
1) エンドツーエンド (E2E) システムを用いた連続音声分離 (CSS) 単一チャネルフロントエンドの高重重畳シナリオへの活用, 従来のE2Eとカスケードセットアップの知恵への挑戦。
CSSフレームワークは、重複した音声を複数の話者から分離することにより、ASRシステムの精度を向上させる。
2) デュアルモデル – ストリーミング用のConformer Transducer,オフライン用のSequence-to-Sequence – の実装,あるいはカスケードエンコーダに基づく2パスモデルの実装。
(3) オフラインシナリオに適したセグメントベースのSOT(segSOT)の探索。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription [31.774032625780414]
TF-GridNetは実残響条件下での音声分離において顕著な性能を示した。
混合エンコーダを静的な2話者シナリオから自然なミーティングコンテキストに拡張する。
実験の結果、単一のマイクを使用して、LibriCSS上での最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - VarArray Meets t-SOT: Advancing the State of the Art of Streaming
Distant Conversational Speech Recognition [36.580955189182404]
本稿では,任意の形状のマイクロホンアレイによってキャプチャされたマルチストーカー重畳音声のための新しいストリーミング自動音声認識(ASR)フレームワークを提案する。
我々のフレームワークであるt-SOT-VAは、配列幾何学非依存連続音声分離(VarArray)とトークンレベルシリアライズ出力トレーニング(t-SOT)に基づくストリーミングマルチストーカーASRという、独立に開発された2つの技術を活用している。
マルチディスタントにおけるAMI開発と評価セットに対して,最先端ワードエラー率13.7%,15.5%を実現している。
論文 参考訳(メタデータ) (2022-09-12T01:22:04Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR [35.7018440502825]
マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
ミスマッチシナリオに着目した2段階拡張方式を提案する。
従来の訓練戦略と比較して、単語誤り率を29.7~59.3%削減するなど、大幅な改善が報告されている。
論文 参考訳(メタデータ) (2021-02-05T08:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。