論文の概要: E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR
- arxiv url: http://arxiv.org/abs/2204.10749v1
- Date: Fri, 22 Apr 2022 15:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:41:30.617936
- Title: E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR
- Title(参考訳): e2eセグメンタ:長尺asrのジョイントセグメンテーションとデコード
- Authors: W. Ronny Huang, Shuo-yiin Chang, David Rybach, Rohit Prabhavalkar,
Tara N. Sainath, Cyril Allauzen, Cal Peyser, Zhiyun Lu
- Abstract要約: ストリーミング方式でセグメント境界を予測できるエンドツーエンドのASRモデルを提案する。
我々は,最先端のコンフォーマーRNN-Tモデルにおいて,VADセグメンタベースラインと比較して,WERが8.5%向上し,中央値の遅延が250ms減少したことを実証した。
- 参考スコア(独自算出の注目度): 38.79441296832869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the performance of end-to-end ASR models on long utterances ranging
from minutes to hours in length is an ongoing challenge in speech recognition.
A common solution is to segment the audio in advance using a separate voice
activity detector (VAD) that decides segment boundary locations based purely on
acoustic speech/non-speech information. VAD segmenters, however, may be
sub-optimal for real-world speech where, e.g., a complete sentence that should
be taken as a whole may contain hesitations in the middle ("set an alarm for...
5 o'clock").
We propose to replace the VAD with an end-to-end ASR model capable of
predicting segment boundaries in a streaming fashion, allowing the segmentation
decision to be conditioned not only on better acoustic features but also on
semantic features from the decoded text with negligible extra computation. In
experiments on real world long-form audio (YouTube) with lengths of up to 30
minutes, we demonstrate 8.5% relative WER improvement and 250 ms reduction in
median end-of-segment latency compared to the VAD segmenter baseline on a
state-of-the-art Conformer RNN-T model.
- Abstract(参考訳): 短時間から数時間の長い発話におけるエンドツーエンドのASRモデルの性能向上は、音声認識における継続的な課題である。
一般的な解決策は、音声/非音声情報に基づいてセグメント境界位置を決定する別個の音声活動検出器(VAD)を用いて、事前に音声を分割することである。
しかし、vadセグメンタは、例えば、全体として取られるべき完全な文は、中央に迷信を含む("set a alarm for... 5 o'clock")現実世界のスピーチに最適であるかもしれない。
本稿では,VADをストリーム形式でセグメント境界を予測可能なエンドツーエンドのASRモデルに置き換えることを提案する。
実世界のロングフォームオーディオ(YouTube)における最大30分間の実験では、最先端のコンフォーマーRNN-TモデルにおけるVADセグメンタベースラインと比較して、8.5%のWER改善と250ミリ秒の中央値終端遅延を実証した。
関連論文リスト
- REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Universal speaker recognition encoders for different speech segments
duration [7.104489204959814]
プールされた短い音声セグメントと長い音声セグメントを同時に訓練するシステムでは、最適な検証結果が得られない。
我々は,任意のタイプのニューラルネットワークアーキテクチャに対して,ユニバーサル話者エンコーダを訓練するための簡単なレシピについて述べる。
論文 参考訳(メタデータ) (2022-10-28T16:06:00Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。