論文の概要: Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features
- arxiv url: http://arxiv.org/abs/2111.02363v1
- Date: Wed, 3 Nov 2021 17:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 14:25:07.757259
- Title: Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features
- Title(参考訳): クロスドメイン特徴を有する深層学習に基づく非侵入的多目的音声評価モデル
- Authors: Ryandhimas E. Zezario, Szu-Wei Fu, Fei Chen, Chiou-Shann Fuh, Hsin-Min
Wang, Yu Tsao
- Abstract要約: MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
- 参考スコア(独自算出の注目度): 30.57631206882462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose a cross-domain multi-objective speech assessment
model, i.e., the MOSA-Net, which can estimate multiple speech assessment
metrics simultaneously. More specifically, the MOSA-Net is designed to estimate
speech quality, intelligibility, and distortion assessment scores based on a
test speech signal as input. It comprises a convolutional neural network and
bidirectional long short-term memory (CNN-BLSTM) architecture for
representation extraction, as well as a multiplicative attention layer and a
fully-connected layer for each assessment metric. In addition, cross-domain
features (spectral and time-domain features) and latent representations from
self-supervised learned models are used as inputs to combine rich acoustic
information from different speech representations to obtain more accurate
assessments. Experimental results reveal that the MOSA-Net can precisely
predict perceptual evaluation of speech quality (PESQ), short-time objective
intelligibility (STOI), and speech distortion index (SDI) scores when tested on
both noisy and enhanced speech utterances under either seen test conditions
(where the test speakers and noise types are involved in the training set) or
unseen test conditions (where the test speakers and noise types are not
involved in the training set). In light of the confirmed prediction capability,
we further adopt the latent representations of the MOSA-Net to guide the speech
enhancement (SE) process and derive a quality-intelligibility (QI)-aware SE
(QIA-SE) approach accordingly. Experimental results show that QIA-SE provides
superior enhancement performance compared with the baseline SE system in terms
of objective evaluation metrics and qualitative evaluation test.
- Abstract(参考訳): 本研究では,複数の発話評価指標を同時に推定できるクロスドメイン多目的音声評価モデル,すなわちmosa-netを提案する。
より具体的には、MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
畳み込みニューラルネットワークと、表現抽出のための双方向長短期メモリ(CNN-BLSTM)アーキテクチャと、各評価基準に対する乗法的注意層と完全連結層とを備える。
さらに、自己教師付き学習モデルのクロスドメイン特徴(スペクトルと時間領域の特徴)と潜時表現を入力として、異なる音声表現からの豊かな音響情報を組み合わせてより正確な評価を得る。
実験結果から,MOSA-Netは,音声品質の知覚的評価(PESQ),短時間客観的インテリジェンス(STOI),音声歪み指数(SDI)のスコアを,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与している場合)と,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与していない場合)のいずれにおいても正確に予測できることがわかった。
確認された予測能力を考慮して、MOSA-Netの潜在表現を更に適用して、音声強調(SE)プロセスを導出し、品質認識性(QI-SE)アプローチを導出する。
実験結果から,QIA-SEは,客観的評価指標と定性評価試験の観点から,ベースラインSEシステムと比較して優れた向上性能を示すことが示された。
関連論文リスト
- Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - InQSS: a speech intelligibility assessment model using a multi-task
learning network [21.037410575414995]
本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。
得られたモデルは、知性スコアだけでなく、音声の品質スコアも予測できる。
論文 参考訳(メタデータ) (2021-11-04T02:01:27Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。