Fugu-MT 論文翻訳(概要): The History of Speech Recognition to the Year 2030

論文の概要: The History of Speech Recognition to the Year 2030

arxiv url: http://arxiv.org/abs/2108.00084v1
Date: Fri, 30 Jul 2021 21:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-05 06:14:52.355397
Title: The History of Speech Recognition to the Year 2030
Title（参考訳）: 2030年までの音声認識の歴史
Authors: Awni Hannun
Abstract要約: 2010年から2020年までの10年間で、自動音声認識が大幅に改善された。現在、多くの人々が日常的に音声認識を使用している。私は2030年までに音声認識研究や応用の現状を予測しようと試みます。
参考スコア（独自算出の注目度）: 10.516648161122472
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The decade from 2010 to 2020 saw remarkable improvements in automatic speech recognition. Many people now use speech recognition on a daily basis, for example to perform voice search queries, send text messages, and interact with voice assistants like Amazon Alexa and Siri by Apple. Before 2010 most people rarely used speech recognition. Given the remarkable changes in the state of speech recognition over the previous decade, what can we expect over the coming decade? I attempt to forecast the state of speech recognition research and applications by the year 2030. While the changes to general speech recognition accuracy will not be as dramatic as in the previous decade, I suggest we have an exciting decade of progress in speech technology ahead of us.
Abstract（参考訳）: 2010年から2020年までの10年間は、音声認識が大幅に改善された。例えば、音声検索クエリの実行、テキストメッセージの送信、Amazon AlexaやAppleのSiriといった音声アシスタントとの対話などだ。 2010年以前は、ほとんどの人が音声認識をほとんど使わなかった。過去10年における音声認識の状況の変化を考えると、今後10年で何が期待できるだろうか? 私は2030年までに音声認識研究と応用の現状を予測しようとしている。一般的な音声認識の精度の変化は、過去10年ほど劇的なものではないが、私たちより先進的な音声技術の進歩は、エキサイティングな10年を告げる。

関連論文リスト

Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T20:27:34Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文参考訳（メタデータ） (2023-06-08T17:28:28Z)
Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文参考訳（メタデータ） (2022-04-05T21:22:38Z)
Self-Supervised Speech Representations Preserve Speech Characteristics while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。変換音声は、元の音声の1%以内に低い単語誤り率を保持する。調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文参考訳（メタデータ） (2022-04-04T17:48:01Z)
Deep Speech Based End-to-End Automated Speech Recognition (ASR) for Indian-English Accents [0.0]
インド英語アクセントのエンドツーエンド音声認識システムの開発にトランスファーラーニングアプローチを用いた。インド英語アクセントのインデックスTSデータは、事前訓練されたディープ音声モデルの転写学習と微調整に使用される。
論文参考訳（メタデータ） (2022-04-03T03:11:21Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。 Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文参考訳（メタデータ） (2022-03-24T07:15:24Z)
High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文参考訳（メタデータ） (2021-01-31T10:54:27Z)
A.I. based Embedded Speech to Text Using Deepspeech [3.2221306786493065]
本稿では,ローエンド計算装置における音声認識の実装プロセスについて述べる。 Deepspeechはオープンソースの音声認識で、ニューラルネットワークを使って音声スペクトログラムをテキストの書き起こしに変換する。本稿では,Deepspeechバージョン0.1.0,0.1.1,0.6.0を用いて実験を行った。
論文参考訳（メタデータ） (2020-02-25T08:27:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。