論文の概要: VOTE400(Voide Of The Elderly 400 Hours): A Speech Dataset to Study Voice
Interface for Elderly-Care
- arxiv url: http://arxiv.org/abs/2101.11469v1
- Date: Wed, 20 Jan 2021 05:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 08:55:01.228495
- Title: VOTE400(Voide Of The Elderly 400 Hours): A Speech Dataset to Study Voice
Interface for Elderly-Care
- Title(参考訳): VOTE400 (Voide of the elderly 400 hourss):高齢者用音声インタフェース研究のための音声データセット
- Authors: Minsu Jang, Sangwon Seo, Dohyung Kim, Jaeyeon Lee, Jaehong Kim,
Jun-Hwan Ahn
- Abstract要約: データセットには、65歳以上の高齢者によって記録された、約300時間の連続対話音声と100時間の読み上げ音声が含まれている。
予備実験により,VOTE400で訓練した音声認識システムは,高齢者の声の音声認識において,従来のシステムよりも優れることが示された。
- 参考スコア(独自算出の注目度): 11.87467300760354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a large-scale Korean speech dataset, called VOTE400,
that can be used for analyzing and recognizing voices of the elderly people.
The dataset includes about 300 hours of continuous dialog speech and 100 hours
of read speech, both recorded by the elderly people aged 65 years or over. A
preliminary experiment showed that speech recognition system trained with
VOTE400 can outperform conventional systems in speech recognition of elderly
people's voice. This work is a multi-organizational effort led by ETRI and
MINDs Lab Inc. for the purpose of advancing the speech recognition performance
of the elderly-care robots.
- Abstract(参考訳): 本稿では,高齢者の声の分析と認識に使用できる,VOTE400という大規模韓国語音声データセットを提案する。
データセットには、65歳以上の高齢者によって記録された、約300時間の連続対話音声と100時間の読み上げ音声が含まれている。
予備実験により,VOTE400で訓練した音声認識システムは,高齢者の声の音声認識において従来のシステムよりも優れることが示された。
本研究は, 介護ロボットの音声認識性能向上を目的として, ETRI と MINDs Lab が主導する多組織的取り組みである。
関連論文リスト
- Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。
少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。
フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文 参考訳(メタデータ) (2023-06-08T17:28:28Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - Speaker Identification using Speech Recognition [0.0]
本研究は,音高,振幅,周波数などの人間の声質的特徴に基づいて,音声ファイル中の話者を識別するメカニズムを提供する。
限られたデータセットで音声表現を学習できる教師なし学習モデルを提案した。
論文 参考訳(メタデータ) (2022-05-29T13:03:42Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - JukeBox: A Multilingual Singer Recognition Dataset [17.33151600403503]
textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。
音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
論文 参考訳(メタデータ) (2020-08-08T12:22:51Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。