論文の概要: STOI-Net: A Deep Learning based Non-Intrusive Speech Intelligibility
Assessment Model
- arxiv url: http://arxiv.org/abs/2011.04292v1
- Date: Mon, 9 Nov 2020 09:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 02:37:25.164385
- Title: STOI-Net: A Deep Learning based Non-Intrusive Speech Intelligibility
Assessment Model
- Title(参考訳): STOI-Net: 深層学習に基づく非侵入的音声明瞭度評価モデル
- Authors: Ryandhimas E. Zezario, Szu-Wei Fu, Chiou-Shann Fuh, Yu Tsao, Hsin-Min
Wang
- Abstract要約: 本稿では,深層学習に基づく非侵入的音声明瞭度評価モデル,すなわちSTOI-Netを提案する。
このモデルは、畳み込みニューラルネットワークと双方向長短期記憶(CNN-BLSTM)アーキテクチャと乗法的注意機構を組み合わせることで構成される。
実験結果から,STOI-Netで推定したSTOIスコアと実STOIスコアとの相関が良好であった。
- 参考スコア(独自算出の注目度): 24.965732699885262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The calculation of most objective speech intelligibility assessment metrics
requires clean speech as a reference. Such a requirement may limit the
applicability of these metrics in real-world scenarios. To overcome this
limitation, we propose a deep learning-based non-intrusive speech
intelligibility assessment model, namely STOI-Net. The input and output of
STOI-Net are speech spectral features and predicted STOI scores, respectively.
The model is formed by the combination of a convolutional neural network and
bidirectional long short-term memory (CNN-BLSTM) architecture with a
multiplicative attention mechanism. Experimental results show that the STOI
score estimated by STOI-Net has a good correlation with the actual STOI score
when tested with noisy and enhanced speech utterances. The correlation values
are 0.97 and 0.83, respectively, for the seen test condition (the test speakers
and noise types are involved in the training set) and the unseen test condition
(the test speakers and noise types are not involved in the training set). The
results confirm the capability of STOI-Net to accurately predict the STOI
scores without referring to clean speech.
- Abstract(参考訳): 最も客観的な音声明瞭度評価指標の計算には、参照としてクリーンな音声が必要である。
このような要件は、現実世界のシナリオでこれらのメトリクスの適用性を制限する可能性がある。
この制限を克服するために,深層学習に基づく非侵入的音声明瞭度評価モデル,すなわちSTOI-Netを提案する。
STOI-Netの入力と出力はそれぞれ音声スペクトルの特徴と予測されたSTOIスコアである。
このモデルは、畳み込みニューラルネットワークと双方向長短期記憶(CNN-BLSTM)アーキテクチャと乗法的注意機構を組み合わせることで構成される。
実験結果から,STOI-Netで推定したSTOIスコアと実STOIスコアとの相関が良好であった。
この相関値は、見掛けた試験条件(試験話者と騒音タイプは訓練セットに関係している)と、見当たらない試験条件(試験話者と騒音タイプは訓練セットに関係しない)についてそれぞれ0.97及び0.83である。
その結果,STOI-Netがクリーン音声を参照することなく,STOIスコアを正確に予測できることが確認された。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文 参考訳(メタデータ) (2021-07-20T10:19:46Z) - Predicting speech intelligibility from EEG using a dilated convolutional
network [17.56832530408592]
そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。
本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 音声明瞭度の客観的評価に寄与する。
論文 参考訳(メタデータ) (2021-05-14T14:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。