論文の概要: HAAQI-Net: A non-intrusive neural music quality assessment model for
hearing aids
- arxiv url: http://arxiv.org/abs/2401.01145v1
- Date: Tue, 2 Jan 2024 10:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:10:29.720989
- Title: HAAQI-Net: A non-intrusive neural music quality assessment model for
hearing aids
- Title(参考訳): HAAQI-Net: 補聴器の非侵襲的神経音楽品質評価モデル
- Authors: Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E.
Zezario, Hsin-Min Wang, Yu Tsao
- Abstract要約: 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。
LCCは0.9257、SRCCは0.9394、MSEは0.0080である。
- 参考スコア(独自算出の注目度): 30.305000305766193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces HAAQI-Net, a non-intrusive deep learning model for
music quality assessment tailored to hearing aid users. In contrast to
traditional methods like the Hearing Aid Audio Quality Index (HAAQI), HAAQI-Net
utilizes a Bidirectional Long Short-Term Memory (BLSTM) with attention. It
takes an assessed music sample and a hearing loss pattern as input, generating
a predicted HAAQI score. The model employs the pre-trained Bidirectional
Encoder representation from Audio Transformers (BEATs) for acoustic feature
extraction. Comparing predicted scores with ground truth, HAAQI-Net achieves a
Longitudinal Concordance Correlation (LCC) of 0.9257, Spearman's Rank
Correlation Coefficient (SRCC) of 0.9394, and Mean Squared Error (MSE) of
0.0080. Notably, this high performance comes with a substantial reduction in
inference time: from 62.52 seconds (by HAAQI) to 2.71 seconds (by HAAQI-Net),
serving as an efficient music quality assessment model for hearing aid users.
- Abstract(参考訳): 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
Hearing Aid Audio Quality Index (HAAQI)のような従来の手法とは対照的に、HAAQI-Netは二方向長短期記憶(BLSTM)に注意を払っている。
評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。
このモデルは、音響特徴抽出のために、BEAT(Audio Transformer)から事前訓練された双方向エンコーダ表現を採用する。
HAAQI-Netは、予測されたスコアと地上の真実と比較すると、経時一致相関(LCC)は0.9257、スピアマンのランク相関係数(SRCC)は0.9394、平均正方形誤差(MSE)は0.0080である。
ハイパフォーマンスは62.52秒(HAAQI)から2.71秒(HAAQI-Net)に短縮され、補聴器使用者の効率的な音楽品質評価モデルとして機能する。
関連論文リスト
- CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z) - NAAQA: A Neural Architecture for Acoustic Question Answering [8.364707318181193]
AQAタスクの目的は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。
音響入力の特定の課題を強調する新しいベンチマークであるCLEAR2を提案する。
また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。
論文 参考訳(メタデータ) (2021-06-11T03:05:48Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Acoustic Scene Classification Using Bilinear Pooling on Time-liked and
Frequency-liked Convolution Neural Network [4.131608702779222]
本稿では、高調波とパーカッシブ音源分離(HPSS)を用いて、音声を高調波とパーカッシブ音源に分割する方法について検討する。
これら2つのCNNから抽出された深い特徴は、双線形プールによって結合される。
このモデルはDCASE 2019サブタスク1aデータセットで評価されており、開発データセットで平均65%のスコアを得ている。
論文 参考訳(メタデータ) (2020-02-14T04:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。