論文の概要: DDKtor: Automatic Diadochokinetic Speech Analysis
- arxiv url: http://arxiv.org/abs/2206.14639v1
- Date: Wed, 29 Jun 2022 13:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 23:39:08.467410
- Title: DDKtor: Automatic Diadochokinetic Speech Analysis
- Title(参考訳): ddktor: ダイアドコネクティクス自動音声解析
- Authors: Yael Segal, Kasia Hitczenko, Matthew Goldrick, Adam Buchwald, Angela
Roberts and Joseph Keshet
- Abstract要約: 本稿では,無表記・無転写音声から子音と母音を自動的に分離する2つのディープニューラルネットワークモデルを提案する。
若い健康な個人のデータセットの結果から、LSTMモデルは現在の最先端システムよりも優れています。
LSTMモデルは、パーキンソン病データセットの未確認高齢者を対象に、訓練されたヒトアノテータに匹敵する結果を提示する。
- 参考スコア(独自算出の注目度): 13.68342426889044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diadochokinetic speech tasks (DDK), in which participants repeatedly produce
syllables, are commonly used as part of the assessment of speech motor
impairments. These studies rely on manual analyses that are time-intensive,
subjective, and provide only a coarse-grained picture of speech. This paper
presents two deep neural network models that automatically segment consonants
and vowels from unannotated, untranscribed speech. Both models work on the raw
waveform and use convolutional layers for feature extraction. The first model
is based on an LSTM classifier followed by fully connected layers, while the
second model adds more convolutional layers followed by fully connected layers.
These segmentations predicted by the models are used to obtain measures of
speech rate and sound duration. Results on a young healthy individuals dataset
show that our LSTM model outperforms the current state-of-the-art systems and
performs comparably to trained human annotators. Moreover, the LSTM model also
presents comparable results to trained human annotators when evaluated on
unseen older individuals with Parkinson's Disease dataset.
- Abstract(参考訳): ダイアドコキネティック・スピーチ・タスク(DDK)は、被験者が繰り返し音節を生成し、音声運動障害の評価の一部として一般的に用いられる。
これらの研究は、時間集約的で主観的であり、粗い音声の全体像のみを提供する手動分析に依存している。
本稿では,無音・無音の音声から子音と母音を自動的に分割する2つの深層ニューラルネットワークモデルを提案する。
どちらのモデルも生の波形で動作し、特徴抽出に畳み込み層を使用する。
第1モデルはLSTM分類器をベースとし、第2モデルはより畳み込み層を追加し、第2モデルは完全な連結層を付加する。
モデルによって予測されるこれらのセグメンテーションは、発話速度と音持続時間を測定するために使用される。
若い健康な個人のデータセットから、LSTMモデルは現在の最先端のシステムより優れており、訓練されたヒトのアノテータと互換性があることを示した。
さらに、LSTMモデルでは、パーキンソン病データセットの未確認高齢者を対象に、トレーニングされたヒトアノテータと同等の結果を示す。
関連論文リスト
- Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling [16.43844160498413]
最近のいくつかの論文では、ディープラーニングに基づくアセスメントモデルが提案されている。
本稿では,クラスタモデルを用いた3つのモデルを提案する。
GQT層は、タスクを自動的に学習することで、人間の評価をより良く予測できることを示す。
論文 参考訳(メタデータ) (2020-08-09T11:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。