論文の概要: VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording
- arxiv url: http://arxiv.org/abs/2107.07509v1
- Date: Thu, 15 Jul 2021 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:54:23.775571
- Title: VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording
- Title(参考訳): vad-free streaming hybrid ctc/attention asr for unsegmented recording
- Authors: Hirofumi Inaguma, Tatsuya Kawahara
- Abstract要約: 本稿では,効率的なバッチ出力同期および低レイテンシ入力同期探索を利用するブロック同期ビーム探索復号法を提案する。
また、確率を利用してモデル状態のリセットに適したタイミングを決定するVADフリー推論アルゴリズムを提案する。
実験により,ブロック同期復号法はラベル同期復号法と同等の精度が得られることが示された。
- 参考スコア(独自算出の注目度): 46.69852287267763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose novel decoding algorithms to enable streaming
automatic speech recognition (ASR) on unsegmented long-form recordings without
voice activity detection (VAD), based on monotonic chunkwise attention (MoChA)
with an auxiliary connectionist temporal classification (CTC) objective. We
propose a block-synchronous beam search decoding to take advantage of efficient
batched output-synchronous and low-latency input-synchronous searches. We also
propose a VAD-free inference algorithm that leverages CTC probabilities to
determine a suitable timing to reset the model states to tackle the
vulnerability to long-form data. Experimental evaluations demonstrate that the
block-synchronous decoding achieves comparable accuracy to the
label-synchronous one. Moreover, the VAD-free inference can recognize long-form
speech robustly for up to a few hours.
- Abstract(参考訳): 本研究では,補助接続型時相分類(ctc)を目的とし,音声活動検出(vad)を必要とせず,無セグメンテーション長形録音における音声認識(asr)のストリーミングを可能にする新しい復号アルゴリズムを提案する。
本稿では,効率的なバッチ出力同期および低レイテンシ入力同期探索を利用するブロック同期ビーム探索デコードを提案する。
また, CTC確率を利用してモデル状態を再セットし, 長期データに対処するための適切なタイミングを決定するVADフリー推論アルゴリズムを提案する。
実験的評価により,ブロック同期復号はラベル同期復号と同等の精度が得られることが示された。
さらに、vadフリー推論は、最大数時間にわたって長形音声をロバストに認識することができる。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - A Demonstration of Over-the-Air Computation for Federated Edge Learning [8.22379888383833]
提案手法は受信方向と送信方向の同期波形の検出に依存する。
この同期手法を低コストのSDRに実装することにより、周波数シフトキー(FSK)ベースの多数決(MV)の性能を示す。
論文 参考訳(メタデータ) (2022-09-20T19:08:49Z) - An Investigation of Enhancing CTC Model for Triggered Attention-based
Streaming ASR [19.668440671541546]
Mask-CTCとトリガアテンション機構を組み合わせることで、ストリーミングエンドツーエンド自動音声認識(ASR)システムを構築する。
提案手法は従来のトリガアテンションベースのストリーミングASRシステムよりも低レイテンシで高い精度を実現する。
論文 参考訳(メタデータ) (2021-10-20T06:44:58Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。