論文の概要: A Benchmarking on Cloud based Speech-To-Text Services for French Speech
and Background Noise Effect
- arxiv url: http://arxiv.org/abs/2105.03409v1
- Date: Fri, 7 May 2021 17:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 13:10:59.867917
- Title: A Benchmarking on Cloud based Speech-To-Text Services for French Speech
and Background Noise Effect
- Title(参考訳): フランス語音声のクラウドベース音声テキストサービスと背景雑音効果のベンチマーク
- Authors: Binbin Xu and Chongyang Tao and Zidu Feng and Youssef Raqui and Sylvie
Ranwez
- Abstract要約: Microsoft Azureは、クリーンスピーチで9.09%の低い書き起こしエラー率を提供し、ノイズの多い環境に高いロバスト性を与えた。
Google CloudとAmazon Transcribeも同様のパフォーマンスを示したが、後者は時間制限の使用に限られている。
- 参考スコア(独自算出の注目度): 8.54093371371352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a large scale benchmarking on cloud based Speech-To-Text
systems: {Google Cloud Speech-To-Text}, {Microsoft Azure Cognitive Services},
{Amazon Transcribe}, {IBM Watson Speech to Text}. For each systems, 40158 clean
and noisy speech files about 101 hours are tested. Effect of background noise
on STT quality is also evaluated with 5 different Signal-to-noise ratios from
40dB to 0dB. Results showed that {Microsoft Azure} provided lowest
transcription error rate $9.09\%$ on clean speech, with high robustness to
noisy environment. {Google Cloud} and {Amazon Transcribe} gave similar
performance, but the latter is very limited for time-constraint usage. Though
{IBM Watson} could work correctly in quiet conditions, it is highly sensible to
noisy speech which could strongly limit its application in real life
situations.
- Abstract(参考訳): 本研究では,クラウドベースの音声テキストシステム上で大規模なベンチマークを行う: {Google Cloud Speech-To-Text}, {Microsoft Azure Cognitive Services}, {Amazon Transcribe}, {IBM Watson Speech to Text}。
各システムでは、40158個のクリーンでノイズの多い音声ファイルが約101時間テストされている。
また,STT品質に対する背景雑音の影響を,40dBから0dBまでの5種類の信号対雑音比で評価した。
結果、Microsoft Azure} はクリーンスピーチにおいて最低転写エラー率 9.09 % を提供し、ノイズの多い環境に対して高い堅牢性を示した。
Google Cloud} と {Amazon Transcribe} も同様のパフォーマンスを示したが、後者は時間制約の使用に限られている。
IBM Watson} は静かな環境では正しく機能する可能性があるが、現実の状況においてその適用を強く制限するうるノイズの多いスピーチには極めて適している。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。