論文の概要: The History of Speech Recognition to the Year 2030
- arxiv url: http://arxiv.org/abs/2108.00084v1
- Date: Fri, 30 Jul 2021 21:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 06:14:52.355397
- Title: The History of Speech Recognition to the Year 2030
- Title(参考訳): 2030年までの音声認識の歴史
- Authors: Awni Hannun
- Abstract要約: 2010年から2020年までの10年間で、自動音声認識が大幅に改善された。
現在、多くの人々が日常的に音声認識を使用している。
私は2030年までに音声認識研究や応用の現状を予測しようと試みます。
- 参考スコア(独自算出の注目度): 10.516648161122472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The decade from 2010 to 2020 saw remarkable improvements in automatic speech
recognition. Many people now use speech recognition on a daily basis, for
example to perform voice search queries, send text messages, and interact with
voice assistants like Amazon Alexa and Siri by Apple. Before 2010 most people
rarely used speech recognition. Given the remarkable changes in the state of
speech recognition over the previous decade, what can we expect over the coming
decade? I attempt to forecast the state of speech recognition research and
applications by the year 2030. While the changes to general speech recognition
accuracy will not be as dramatic as in the previous decade, I suggest we have
an exciting decade of progress in speech technology ahead of us.
- Abstract(参考訳): 2010年から2020年までの10年間は、音声認識が大幅に改善された。
例えば、音声検索クエリの実行、テキストメッセージの送信、Amazon AlexaやAppleのSiriといった音声アシスタントとの対話などだ。
2010年以前は、ほとんどの人が音声認識をほとんど使わなかった。
過去10年における音声認識の状況の変化を考えると、今後10年で何が期待できるだろうか?
私は2030年までに音声認識研究と応用の現状を予測しようとしている。
一般的な音声認識の精度の変化は、過去10年ほど劇的なものではないが、私たちより先進的な音声技術の進歩は、エキサイティングな10年を告げる。
関連論文リスト
- Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。
少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。
フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文 参考訳(メタデータ) (2023-06-08T17:28:28Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Deep Speech Based End-to-End Automated Speech Recognition (ASR) for
Indian-English Accents [0.0]
インド英語アクセントのエンドツーエンド音声認識システムの開発にトランスファーラーニングアプローチを用いた。
インド英語アクセントのインデックスTSデータは、事前訓練されたディープ音声モデルの転写学習と微調整に使用される。
論文 参考訳(メタデータ) (2022-04-03T03:11:21Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - A.I. based Embedded Speech to Text Using Deepspeech [3.2221306786493065]
本稿では,ローエンド計算装置における音声認識の実装プロセスについて述べる。
Deepspeechはオープンソースの音声認識で、ニューラルネットワークを使って音声スペクトログラムをテキストの書き起こしに変換する。
本稿では,Deepspeechバージョン0.1.0,0.1.1,0.6.0を用いて実験を行った。
論文 参考訳(メタデータ) (2020-02-25T08:27:41Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。