論文の概要: Super-Human Performance in Online Low-latency Recognition of
Conversational Speech
- arxiv url: http://arxiv.org/abs/2010.03449v5
- Date: Mon, 26 Jul 2021 20:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:37:40.746995
- Title: Super-Human Performance in Online Low-latency Recognition of
Conversational Speech
- Title(参考訳): 会話音声のオンライン低レイテンシ認識における超Human性能
- Authors: Thai-Son Nguyen, Sebastian Stueker, Alex Waibel
- Abstract要約: 本稿では,話者の発話のわずか1秒の遅延時間で,超人的性能を実現するシステムについて述べる。
このシステムは、新しい低レイテンシインクリメンタル推論アプローチに統合された複数のアテンションベースのエンコーダデコーダネットワークを使用する。
- 参考スコア(独自算出の注目度): 18.637636841477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving super-human performance in recognizing human speech has been a goal
for several decades, as researchers have worked on increasingly challenging
tasks. In the 1990's it was discovered, that conversational speech between two
humans turns out to be considerably more difficult than read speech as
hesitations, disfluencies, false starts and sloppy articulation complicate
acoustic processing and require robust handling of acoustic, lexical and
language context, jointly. Early attempts with statistical models could only
reach error rates over 50% and far from human performance (WER of around 5.5%).
Neural hybrid models and recent attention-based encoder-decoder models have
considerably improved performance as such contexts can now be learned in an
integral fashion. However, processing such contexts requires an entire
utterance presentation and thus introduces unwanted delays before a recognition
result can be output. In this paper, we address performance as well as latency.
We present results for a system that can achieve super-human performance (at a
WER of 5.0%, over the Switchboard conversational benchmark) at a word based
latency of only 1 second behind a speaker's speech. The system uses multiple
attention-based encoder-decoder networks integrated within a novel low latency
incremental inference approach.
- Abstract(参考訳): 人間の音声認識における超人的パフォーマンスの実現は、数十年にわたって目標とされてきた。
1990年代には、2人の人間の間での会話的な会話は、迷信、不流動、誤発声、スロピーの調音が音響処理を複雑にし、音響、語彙、言語コンテキストを協調的に扱う必要があるため、音声を読むよりもかなり難しいことが判明した。
統計モデルの初期の試みは50%以上のエラー率しか達成できず、人間のパフォーマンスには程遠い(約5.5%)。
ニューラルハイブリッドモデルと近年の注意に基づくエンコーダ・デコーダモデルにより、コンテキストが統合的に学習できるため、パフォーマンスが大幅に向上した。
しかし、このようなコンテキストを処理するには全発話提示が必要であるため、認識結果が出力される前に不要な遅延が発生する。
本稿では,レイテンシだけでなく性能にも対処する。
本稿では,話者の発話のわずか1秒遅れで,単語ベースのレイテンシで超人的性能(スイッチボード対話ベンチマークより5.0%)を達成するシステムについて報告する。
このシステムは、新しい低レイテンシインクリメンタル推論アプローチに統合された複数のアテンションベースのエンコーダデコーダネットワークを使用する。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Child Speech Recognition in Human-Robot Interaction: Problem Solved? [0.024739484546803334]
我々は、2017年からの子どもの音声認識に関する研究を再考し、実際に性能が向上したことを示す。
Newcomer OpenAI Whisperは、主要な商用クラウドサービスよりもはるかに優れている。
転写はまだ完璧ではないが、最高のモデルは文の60.3%を正しく認識し、小さな文法的な違いを抑える。
論文 参考訳(メタデータ) (2024-04-26T13:14:28Z) - FlashSpeech: Efficient Zero-Shot Speech Synthesis [37.883762387219676]
FlashSpeechは、大規模なゼロショット音声合成システムであり、従来の作業と比べて約5%の推論時間を持つ。
我々は,FlashSpeechが他のゼロショット音声合成システムよりも約20倍高速でありながら,音声品質と類似性において同等の性能を維持していることを示す。
論文 参考訳(メタデータ) (2024-04-23T02:57:46Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Accented Speech Recognition Inspired by Human Perception [0.0]
本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。
我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。
本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
論文 参考訳(メタデータ) (2021-04-09T22:35:09Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。