論文の概要: HAAQI-Net: A non-intrusive neural music quality assessment model for
hearing aids
- arxiv url: http://arxiv.org/abs/2401.01145v3
- Date: Wed, 31 Jan 2024 05:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 11:33:14.844780
- Title: HAAQI-Net: A non-intrusive neural music quality assessment model for
hearing aids
- Title(参考訳): HAAQI-Net: 補聴器の非侵襲的神経音楽品質評価モデル
- Authors: Dyah A. M. G. Wisnu, Epri W. Pratiwi, Stefano Rini, Ryandhimas E.
Zezario, Hsin-Min Wang, Yu Tsao
- Abstract要約: 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。
LCCは0.9368、SRCCは0.9486、MSEは0.0064である。
- 参考スコア(独自算出の注目度): 30.305000305766193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces HAAQI-Net, a non-intrusive deep learning model for
music quality assessment tailored to hearing aid users. In contrast to
traditional methods like the Hearing Aid Audio Quality Index (HAAQI), HAAQI-Net
utilizes a Bidirectional Long Short-Term Memory (BLSTM) with attention. It
takes an assessed music sample and a hearing loss pattern as input, generating
a predicted HAAQI score. The model employs the pre-trained Bidirectional
Encoder representation from Audio Transformers (BEATs) for acoustic feature
extraction. Comparing predicted scores with ground truth, HAAQI-Net achieves a
Longitudinal Concordance Correlation (LCC) of 0.9368, Spearman's Rank
Correlation Coefficient (SRCC) of 0.9486, and Mean Squared Error (MSE) of
0.0064. Notably, this high performance comes with a substantial reduction in
inference time: from 62.52 seconds (by HAAQI) to 2.54 seconds (by HAAQI-Net),
serving as an efficient music quality assessment model for hearing aid users.
- Abstract(参考訳): 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
Hearing Aid Audio Quality Index (HAAQI)のような従来の手法とは対照的に、HAAQI-Netは二方向長短期記憶(BLSTM)に注意を払っている。
評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。
このモデルは、音響特徴抽出のために、BEAT(Audio Transformer)から事前訓練された双方向エンコーダ表現を採用する。
HAAQI-Netは、予測されたスコアと地上の真実と比較すると、LCCの0.9368、SRCCの0.9486、平均正方形誤差(MSE)の0.0064を達成している。
ハイパフォーマンスは62.52秒(HAAQI)から2.54秒(HAAQI-Net)に短縮され、補聴器使用者の効率的な音楽品質評価モデルとして機能する。
関連論文リスト
- Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning [1.024113475677323]
本研究では,従来のノイズキャンセリング手法の優れた代替手段として,ディープニューラルネットワーク(DNN)の利用について検討する。
ConvTasNETネットワークは、WHAM!、LibriMix、MS-2023 DNS Challengeなどのデータセットでトレーニングされた。
高サンプリングレート(48kHz)でトレーニングされたモデルは、トータル・ハーモニック・ディストーション(THD)と生成ニューラルコーデック(WARP-Q)の値に対するはるかに優れた評価指標を提供した。
論文 参考訳(メタデータ) (2024-05-30T16:20:44Z) - Feature Denoising Diffusion Model for Blind Image Quality Assessment [58.5808754919597]
Blind Image Quality Assessment (BIQA) は、基準ベンチマークを使わずに、人間の知覚に合わせて画質を評価することを目的としている。
ディープラーニング BIQA の手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存する。
本稿では,BIQAにおける特徴認知のための拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-01-22T13:38:24Z) - Improving Deep Attractor Network by BGRU and GMM for Speech Separation [0.0]
Deep Attractor Network (DANet) は、音声分離分野における最先端技術である。
本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T06:26:53Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Automatic Estimation of Intelligibility Measure for Consonants in Speech [44.02658023314131]
我々は、停止子音に対する畳み込みニューラルネットワーク(CNN)に基づく回帰モデルを訓練する。
本研究では,通常の聴覚 (NH) 耳に対して,共振器(CV) の音が知覚可能となる雑音比 (SNR) を推定する。
論文 参考訳(メタデータ) (2020-05-12T21:45:20Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。