論文の概要: VOTE400(Voide Of The Elderly 400 Hours): A Speech Dataset to Study Voice
Interface for Elderly-Care
- arxiv url: http://arxiv.org/abs/2101.11469v1
- Date: Wed, 20 Jan 2021 05:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 08:55:01.228495
- Title: VOTE400(Voide Of The Elderly 400 Hours): A Speech Dataset to Study Voice
Interface for Elderly-Care
- Title(参考訳): VOTE400 (Voide of the elderly 400 hourss):高齢者用音声インタフェース研究のための音声データセット
- Authors: Minsu Jang, Sangwon Seo, Dohyung Kim, Jaeyeon Lee, Jaehong Kim,
Jun-Hwan Ahn
- Abstract要約: データセットには、65歳以上の高齢者によって記録された、約300時間の連続対話音声と100時間の読み上げ音声が含まれている。
予備実験により,VOTE400で訓練した音声認識システムは,高齢者の声の音声認識において,従来のシステムよりも優れることが示された。
- 参考スコア(独自算出の注目度): 11.87467300760354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a large-scale Korean speech dataset, called VOTE400,
that can be used for analyzing and recognizing voices of the elderly people.
The dataset includes about 300 hours of continuous dialog speech and 100 hours
of read speech, both recorded by the elderly people aged 65 years or over. A
preliminary experiment showed that speech recognition system trained with
VOTE400 can outperform conventional systems in speech recognition of elderly
people's voice. This work is a multi-organizational effort led by ETRI and
MINDs Lab Inc. for the purpose of advancing the speech recognition performance
of the elderly-care robots.
- Abstract(参考訳): 本稿では,高齢者の声の分析と認識に使用できる,VOTE400という大規模韓国語音声データセットを提案する。
データセットには、65歳以上の高齢者によって記録された、約300時間の連続対話音声と100時間の読み上げ音声が含まれている。
予備実験により,VOTE400で訓練した音声認識システムは,高齢者の声の音声認識において従来のシステムよりも優れることが示された。
本研究は, 介護ロボットの音声認識性能向上を目的として, ETRI と MINDs Lab が主導する多組織的取り組みである。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection [46.855958156126164]
AS-70は、マンダリンで公開されている最初の音声データセットである。
本稿では,マンダリン発声音声データセットAS-70について紹介する。
論文 参考訳(メタデータ) (2024-06-11T13:35:50Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。
少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。
フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文 参考訳(メタデータ) (2023-06-08T17:28:28Z) - Speaker Identification using Speech Recognition [0.0]
本研究は,音高,振幅,周波数などの人間の声質的特徴に基づいて,音声ファイル中の話者を識別するメカニズムを提供する。
限られたデータセットで音声表現を学習できる教師なし学習モデルを提案した。
論文 参考訳(メタデータ) (2022-05-29T13:03:42Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - JukeBox: A Multilingual Singer Recognition Dataset [17.33151600403503]
textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。
音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
論文 参考訳(メタデータ) (2020-08-08T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。