論文の概要: High Performance Sequence-to-Sequence Model for Streaming Speech
Recognition
- arxiv url: http://arxiv.org/abs/2003.10022v2
- Date: Sun, 26 Jul 2020 21:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:50:32.725943
- Title: High Performance Sequence-to-Sequence Model for Streaming Speech
Recognition
- Title(参考訳): ストリーム音声認識のための高性能シーケンス・ツー・シーケンスモデル
- Authors: Thai-Son Nguyen, Ngoc-Quan Pham, Sebastian Stueker, Alex Waibel
- Abstract要約: 標準的な音声認識タスクにおいて、シーケンス・ツー・シーケンスのモデルが最先端のパフォーマンスを達成するようになった。
しかし、音声データの入力ストリーム上でランオン認識を行う場合、これらのモデルはいくつかの課題に直面している。
注意機構の不確実性を制御する追加の損失関数、部分的、安定な仮説を識別するビーム探索、エンコーダにおけるBLSTMの動作方法、チャンクされたBLSTMの使用を提案する。
- 参考スコア(独自算出の注目度): 19.488757267198498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently sequence-to-sequence models have started to achieve state-of-the-art
performance on standard speech recognition tasks when processing audio data in
batch mode, i.e., the complete audio data is available when starting
processing. However, when it comes to performing run-on recognition on an input
stream of audio data while producing recognition results in real-time and with
low word-based latency, these models face several challenges. For many
techniques, the whole audio sequence to be decoded needs to be available at the
start of the processing, e.g., for the attention mechanism or the bidirectional
LSTM (BLSTM). In this paper, we propose several techniques to mitigate these
problems. We introduce an additional loss function controlling the uncertainty
of the attention mechanism, a modified beam search identifying partial, stable
hypotheses, ways of working with BLSTM in the encoder, and the use of chunked
BLSTM. Our experiments show that with the right combination of these
techniques, it is possible to perform run-on speech recognition with low
word-based latency without sacrificing in word error rate performance.
- Abstract(参考訳): 近年,バッチモードで音声データを処理する場合,処理開始時に完全音声データが利用可能になるなど,標準的な音声認識タスクにおいて,シークエンス・ツー・シーケンスのモデルが最先端のパフォーマンスを達成し始めている。
しかし、オーディオデータの入力ストリーム上でランオン認識を実行し、認識結果を生成する場合には、リアルタイムで、単語ベースのレイテンシが低くなると、これらのモデルにはいくつかの課題がある。
多くの技術において、デコードされるオーディオシーケンスは、例えばアテンション機構や双方向LSTM(BLSTM)のために処理の開始時に利用可能である必要がある。
本稿では,これらの問題を解決する手法をいくつか提案する。
注意機構の不確実性を制御する追加の損失関数、部分的、安定な仮説を識別するビーム探索、エンコーダにおけるBLSTMの動作方法、チャンクされたBLSTMの使用を提案する。
提案手法を適切に組み合わせることで、単語誤り率性能を犠牲にすることなく、低単語遅延で音声認識を行うことが可能であることを示す。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。