論文の概要: Predicting speech intelligibility from EEG using a dilated convolutional
network
- arxiv url: http://arxiv.org/abs/2105.06844v1
- Date: Fri, 14 May 2021 14:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:34:04.062963
- Title: Predicting speech intelligibility from EEG using a dilated convolutional
network
- Title(参考訳): 拡張畳み込みネットワークを用いた脳波からの音声明瞭度予測
- Authors: Bernd Accou, Mohammad Jalilpour Monesi, Hugo Van hamme and Tom
Francart
- Abstract要約: そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。
本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 音声明瞭度の客観的評価に寄与する。
- 参考スコア(独自算出の注目度): 17.56832530408592
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Objective: Currently, only behavioral speech understanding tests are
available, which require active participation of the person. As this is
infeasible for certain populations, an objective measure of speech
intelligibility is required. Recently, brain imaging data has been used to
establish a relationship between stimulus and brain response. Linear models
have been successfully linked to speech intelligibility but require per-subject
training. We present a deep-learning-based model incorporating dilated
convolutions that can be used to predict speech intelligibility without
subject-specific (re)training. Methods: We evaluated the performance of the
model as a function of input segment length, EEG frequency band and receptive
field size while comparing it to a baseline model. Next, we evaluated
performance on held-out data and finetuning. Finally, we established a link
between the accuracy of our model and the state-of-the-art behavioral MATRIX
test. Results: The model significantly outperformed the baseline for every
input segment length (p$\leq10^{-9}$), for all EEG frequency bands except the
theta band (p$\leq0.001$) and for receptive field sizes larger than 125~ms
(p$\leq0.05$). Additionally, finetuning significantly increased the accuracy
(p$\leq0.05$) on a held-out dataset. Finally, a significant correlation
(r=0.59, p=0.0154) was found between the speech reception threshold estimated
using the behavioral MATRIX test and our objective method. Conclusion: Our
proposed dilated convolutional model can be used as a proxy for speech
intelligibility. Significance: Our method is the first to predict the speech
reception threshold from EEG for unseen subjects, contributing to objective
measures of speech intelligibility.
- Abstract(参考訳): 目的: 現在、行動的音声理解テストのみが利用可能であり、アクティブな参加を必要とする。
特定の人口に当てはまらないため、客観的な発話の了解度が要求される。
近年、脳画像データを用いて刺激と脳反応の関係が確立されている。
線形モデルは、音声の知性と関連づけられるが、サブジェクトごとの訓練が必要である。
そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。
方法: 入力セグメント長, 脳波周波数帯域, 受容野の大きさの関数としてモデルの性能を評価し, ベースラインモデルと比較した。
次に,ホールドアウトデータとファインタニングの性能評価を行った。
最後に,我々のモデルの精度と最先端の行動MATRIXテストの関連性を確立した。
結果: このモデルは入力セグメント長毎 (p$\leq10^{-9}$) のベースラインを大きく上回り、セタ帯域 (p$\leq0.001$) を除くすべての脳波周波数帯域と125~ms以上の受容磁場サイズ (p$\leq0.05$) のベースラインを上回った。
さらに、ファインタニングは保持されたデータセットの精度(p$\leq0.05$)を大きく向上させた。
最後に,行動MATRIXテストを用いて推定した音声受信閾値と目的法との間に有意な相関(r=0.59,p=0.0154)が認められた。
結論:提案する拡張畳み込みモデルは,音声の明瞭さの指標として使用できる。
意義: 本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 客観的な音声明瞭度測定に寄与する。
関連論文リスト
- Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Nearest Neighbor Zero-Shot Inference [68.56747574377215]
kNN-Promptは、言語モデル(LM)を用いたゼロショット推論のためのk-nearest neighbor (kNN)検索拡張手法である。
ファジィ動詞化器は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクのスパースkNN分布を利用する。
実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。
論文 参考訳(メタデータ) (2022-05-27T07:00:59Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Effects of Number of Filters of Convolutional Layers on Speech
Recognition Model Accuracy [6.2698513174194215]
本稿では,ASRモデルに対するCNN+RNNのモデル予測精度に及ぼす畳み込み層フィルタ数の影響について検討する。
実験結果から,フィルタのCNN数が一定の閾値を超えた場合のみ,CNN+RNN音声認識モデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-02-03T23:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。