論文の概要: Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features
- arxiv url: http://arxiv.org/abs/2111.02363v1
- Date: Wed, 3 Nov 2021 17:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 14:25:07.757259
- Title: Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features
- Title(参考訳): クロスドメイン特徴を有する深層学習に基づく非侵入的多目的音声評価モデル
- Authors: Ryandhimas E. Zezario, Szu-Wei Fu, Fei Chen, Chiou-Shann Fuh, Hsin-Min
Wang, Yu Tsao
- Abstract要約: MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
- 参考スコア(独自算出の注目度): 30.57631206882462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose a cross-domain multi-objective speech assessment
model, i.e., the MOSA-Net, which can estimate multiple speech assessment
metrics simultaneously. More specifically, the MOSA-Net is designed to estimate
speech quality, intelligibility, and distortion assessment scores based on a
test speech signal as input. It comprises a convolutional neural network and
bidirectional long short-term memory (CNN-BLSTM) architecture for
representation extraction, as well as a multiplicative attention layer and a
fully-connected layer for each assessment metric. In addition, cross-domain
features (spectral and time-domain features) and latent representations from
self-supervised learned models are used as inputs to combine rich acoustic
information from different speech representations to obtain more accurate
assessments. Experimental results reveal that the MOSA-Net can precisely
predict perceptual evaluation of speech quality (PESQ), short-time objective
intelligibility (STOI), and speech distortion index (SDI) scores when tested on
both noisy and enhanced speech utterances under either seen test conditions
(where the test speakers and noise types are involved in the training set) or
unseen test conditions (where the test speakers and noise types are not
involved in the training set). In light of the confirmed prediction capability,
we further adopt the latent representations of the MOSA-Net to guide the speech
enhancement (SE) process and derive a quality-intelligibility (QI)-aware SE
(QIA-SE) approach accordingly. Experimental results show that QIA-SE provides
superior enhancement performance compared with the baseline SE system in terms
of objective evaluation metrics and qualitative evaluation test.
- Abstract(参考訳): 本研究では,複数の発話評価指標を同時に推定できるクロスドメイン多目的音声評価モデル,すなわちmosa-netを提案する。
より具体的には、MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
畳み込みニューラルネットワークと、表現抽出のための双方向長短期メモリ(CNN-BLSTM)アーキテクチャと、各評価基準に対する乗法的注意層と完全連結層とを備える。
さらに、自己教師付き学習モデルのクロスドメイン特徴(スペクトルと時間領域の特徴)と潜時表現を入力として、異なる音声表現からの豊かな音響情報を組み合わせてより正確な評価を得る。
実験結果から,MOSA-Netは,音声品質の知覚的評価(PESQ),短時間客観的インテリジェンス(STOI),音声歪み指数(SDI)のスコアを,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与している場合)と,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与していない場合)のいずれにおいても正確に予測できることがわかった。
確認された予測能力を考慮して、MOSA-Netの潜在表現を更に適用して、音声強調(SE)プロセスを導出し、品質認識性(QI-SE)アプローチを導出する。
実験結果から,QIA-SEは,客観的評価指標と定性評価試験の観点から,ベースラインSEシステムと比較して優れた向上性能を示すことが示された。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Feature Denoising Diffusion Model for Blind Image Quality Assessment [58.5808754919597]
Blind Image Quality Assessment (BIQA) は、基準ベンチマークを使わずに、人間の知覚に合わせて画質を評価することを目的としている。
ディープラーニング BIQA の手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存する。
本稿では,BIQAにおける特徴認知のための拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-01-22T13:38:24Z) - HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids [30.305000305766193]
本稿では,難聴者を対象とした非侵襲的ディープラーニングに基づく音質評価モデルであるHAAQI-Netを紹介する。
HAAQIのスコアは、音楽のオーディオクリップや聴覚障害パターンから直接予測できる。
論文 参考訳(メタデータ) (2024-01-02T10:55:01Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - Evaluation of Speech Representations for MOS prediction [0.7329200485567826]
本稿では,音声品質予測のための特徴抽出モデルの評価を行う。
また,教師付き学習モデルと自己教師付き学習モデルの埋め込みを話者検証モデルの埋め込みと比較するモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-16T17:21:42Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - STOI-Net: A Deep Learning based Non-Intrusive Speech Intelligibility
Assessment Model [24.965732699885262]
本稿では,深層学習に基づく非侵入的音声明瞭度評価モデル,すなわちSTOI-Netを提案する。
このモデルは、畳み込みニューラルネットワークと双方向長短期記憶(CNN-BLSTM)アーキテクチャと乗法的注意機構を組み合わせることで構成される。
実験結果から,STOI-Netで推定したSTOIスコアと実STOIスコアとの相関が良好であった。
論文 参考訳(メタデータ) (2020-11-09T09:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。