論文の概要: End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection
- arxiv url: http://arxiv.org/abs/2002.00551v2
- Date: Fri, 14 Feb 2020 06:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 09:25:18.966656
- Title: End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection
- Title(参考訳): CTCに基づく音声活動検出と統合したエンドツーエンド音声認識
- Authors: Takenori Yoshimura, Tomoki Hayashi, Kazuya Takeda and Shinji Watanabe
- Abstract要約: 本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
- 参考スコア(独自算出の注目度): 48.80449801938696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper integrates a voice activity detection (VAD) function with
end-to-end automatic speech recognition toward an online speech interface and
transcribing very long audio recordings. We focus on connectionist temporal
classification (CTC) and its extension of CTC/attention architectures. As
opposed to an attention-based architecture, input-synchronous label prediction
can be performed based on a greedy search with the CTC (pre-)softmax output.
This prediction includes consecutive long blank labels, which can be regarded
as a non-speech region. We use the labels as a cue for detecting speech
segments with simple thresholding. The threshold value is directly related to
the length of a non-speech region, which is more intuitive and easier to
control than conventional VAD hyperparameters. Experimental results on
unsegmented data show that the proposed method outperformed the baseline
methods using the conventional energy-based and neural-network-based VAD
methods and achieved an RTF less than 0.2. The proposed method is publicly
available.
- Abstract(参考訳): 本稿では,音声活動検出(VAD)機能とエンド・ツー・エンドの音声認識機能を統合し,非常に長い音声記録を翻訳する。
我々はコネクショニスト時間分類(CTC)とCTC/アテンションアーキテクチャの拡張に焦点を当てた。
注意に基づくアーキテクチャとは対照的に、CTC(pre-)softmax出力による欲求検索に基づいて、入力同期ラベル予測を行うことができる。
この予測には連続した長いブランクラベルが含まれており、非音声領域と見なすことができる。
我々は、ラベルを単純なしきい値で音声セグメントを検出する手がかりとして用いる。
閾値は、従来のVADハイパーパラメータよりも直感的で制御しやすい非音声領域の長さと直接関連している。
実験結果から,提案手法は従来のエネルギーベースおよびニューラルネットワークベースのvad法でベースライン法を上回り,rtfを0.2以下で達成した。
提案手法が公開されている。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding [0.0]
Cued Speech (CS)は、聴覚障害者が音声言語を理解するのを助ける視覚コミュニケーションツールである。
提案手法は、視覚特徴抽出に使用される事前訓練された手と唇のトラッカーと、マルチストリームリカレントニューラルネットワークに基づく音声デコーダに基づく。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れており、より複雑なベースラインと競合する。
論文 参考訳(メタデータ) (2022-04-11T09:30:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording [46.69852287267763]
本稿では,効率的なバッチ出力同期および低レイテンシ入力同期探索を利用するブロック同期ビーム探索復号法を提案する。
また、確率を利用してモデル状態のリセットに適したタイミングを決定するVADフリー推論アルゴリズムを提案する。
実験により,ブロック同期復号法はラベル同期復号法と同等の精度が得られることが示された。
論文 参考訳(メタデータ) (2021-07-15T17:59:10Z) - Sequential End-to-End Intent and Slot Label Classification and
Localization [2.1684857243537334]
エンドツーエンド(e2e)の音声言語理解(SLU)ソリューションが最近提案されている。
本稿では,音声信号のチャンクを連続処理して意図とスロット値を予測する,ストリーミングシナリオのためのコンパクトなe2e SLUアーキテクチャを提案する。
その結果,CTC 98.97 %,CTL 98.78 % に到達した音声信号の処理能力が得られた。
論文 参考訳(メタデータ) (2021-06-08T19:53:04Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。