論文の概要: HASA-net: A non-intrusive hearing-aid speech assessment network
- arxiv url: http://arxiv.org/abs/2111.05691v1
- Date: Wed, 10 Nov 2021 14:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:27:33.587960
- Title: HASA-net: A non-intrusive hearing-aid speech assessment network
- Title(参考訳): HASA-net:非侵入型補聴器音声評価ネットワーク
- Authors: Hsin-Tien Chiang, Yi-Chiao Wu, Cheng Yu, Tomoki Toda, Hsin-Min Wang,
Yih-Chun Hu, Yu Tsao
- Abstract要約: 本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
- 参考スコア(独自算出の注目度): 52.83357278948373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Without the need of a clean reference, non-intrusive speech assessment
methods have caught great attention for objective evaluations. Recently, deep
neural network (DNN) models have been applied to build non-intrusive speech
assessment approaches and confirmed to provide promising performance. However,
most DNN-based approaches are designed for normal-hearing listeners without
considering hearing-loss factors. In this study, we propose a DNN-based hearing
aid speech assessment network (HASA-Net), formed by a bidirectional long
short-term memory (BLSTM) model, to predict speech quality and intelligibility
scores simultaneously according to input speech signals and specified
hearing-loss patterns. To the best of our knowledge, HASA-Net is the first work
to incorporate quality and intelligibility assessments utilizing a unified
DNN-based non-intrusive model for hearing aids. Experimental results show that
the predicted speech quality and intelligibility scores of HASA-Net are highly
correlated to two well-known intrusive hearing-aid evaluation metrics, hearing
aid speech quality index (HASQI) and hearing aid speech perception index
(HASPI), respectively.
- Abstract(参考訳): クリーンな参照を必要とせず、非侵入的音声評価法は客観的評価に大きな注目を集めている。
近年,ディープニューラルネットワーク(dnn)モデルが非インタラクティブな音声評価手法の構築に応用され,有望な性能を提供することが確認されている。
しかし、ほとんどのDNNベースのアプローチは、難聴要因を考慮せずに、通常の聴取者向けに設計されている。
本研究では,双方向長短記憶モデル(blstm)を用いて,入力音声信号と特定難聴パターンに応じて,音声品質と聴力スコアを同時に予測するdnnベースの補聴器音声評価ネットワーク(hasa-net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質と知性の評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標,補聴器音質指標(HASQI),補聴器音質指標(HASPI)と高い相関を示した。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models [29.511898279006175]
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。
トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
論文 参考訳(メタデータ) (2024-01-24T17:31:07Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Stable Training of DNN for Speech Enhancement based on
Perceptually-Motivated Black-Box Cost Function [39.66350526759246]
PESQ (perceptual evaluation of speech quality) などの主観的音質評価(OSQA)に関連する手法が提案されている。
ディープニューラルネットワーク(DNN)のトレーニングには,一般的なOSQAがDNNパラメータに対して差別化できないため,このような手段を直接使用することはできない。
PESQのスコアを上げるために,強化学習から借用した安定化手法を提案する。
論文 参考訳(メタデータ) (2020-02-14T05:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。