論文の概要: HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
- arxiv url: http://arxiv.org/abs/2401.01145v5
- Date: Thu, 09 Jan 2025 05:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:56:13.373927
- Title: HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
- Title(参考訳): HAAQI-Net: 聴覚障害者のための非侵襲的ニューラル音楽品質評価モデル
- Authors: Dyah A. M. G. Wisnu, Stefano Rini, Ryandhimas E. Zezario, Hsin-Min Wang, Yu Tsao,
- Abstract要約: 本稿では,難聴者を対象とした非侵襲的ディープラーニングに基づく音質評価モデルであるHAAQI-Netを紹介する。
HAAQIのスコアは、音楽のオーディオクリップや聴覚障害パターンから直接予測できる。
- 参考スコア(独自算出の注目度): 30.305000305766193
- License:
- Abstract: This paper introduces HAAQI-Net, a non-intrusive deep learning-based music audio quality assessment model for hearing aid users. Unlike traditional methods like the Hearing Aid Audio Quality Index (HAAQI) that require intrusive reference signal comparisons, HAAQI-Net offers a more accessible and computationally efficient alternative. By utilizing a Bidirectional Long Short-Term Memory (BLSTM) architecture with attention mechanisms and features extracted from the pre-trained BEATs model, it can predict HAAQI scores directly from music audio clips and hearing loss patterns. Experimental results demonstrate HAAQI-Net's effectiveness, achieving a Linear Correlation Coefficient (LCC) of 0.9368 , a Spearman's Rank Correlation Coefficient (SRCC) of 0.9486 , and a Mean Squared Error (MSE) of 0.0064 and inference time significantly reduces from 62.52 to 2.54 seconds. To address computational overhead, a knowledge distillation strategy was applied, reducing parameters by 75.85% and inference time by 96.46%, while maintaining strong performance (LCC: 0.9071 , SRCC: 0.9307 , MSE: 0.0091 ). To expand its capabilities, HAAQI-Net was adapted to predict subjective human scores like the Mean Opinion Score (MOS) through fine-tuning. This adaptation significantly improved prediction accuracy, validated through statistical analysis. Furthermore, the robustness of HAAQI-Net was evaluated under varying Sound Pressure Level (SPL) conditions, revealing optimal performance at a reference SPL of 65 dB, with accuracy gradually decreasing as SPL deviated from this point. The advancements in subjective score prediction, SPL robustness, and computational efficiency position HAAQI-Net as a scalable solution for music audio quality assessment in hearing aid applications, contributing to efficient and accurate models in audio signal processing and hearing aid technology.
- Abstract(参考訳): 本稿では,難聴者を対象とした非侵襲的ディープラーニングに基づく音質評価モデルであるHAAQI-Netを紹介する。
音質指標(HAAQI)のような、侵入的な基準信号の比較を必要とする従来の手法とは異なり、HAAQI-Netはよりアクセシブルで効率的な代替手段を提供する。
学習済みBEATsモデルから抽出した特徴や注意機構を備えた双方向長短期記憶(BLSTM)アーキテクチャを利用することで,音楽オーディオクリップや聴覚障害パターンから直接HAAQIスコアを予測できる。
HAAQI-Netの有効性を示し、線形相関係数0.9368、スピアマンランク相関係数0.9486、平均正方形誤差0.0064、推定時間は62.52から2.54秒と大幅に低下した。
計算オーバーヘッドに対処するため、知識蒸留戦略を適用し、パラメータを75.85%減らし、推論時間を96.46%減らした(LCC:0.9071、SRCC:0.9307、MSE:0.0091)。
HAAQI-Netはその能力を拡張するために、微調整によって平均オピニオンスコア(MOS)のような主観的な人間のスコアを予測するように適応された。
この適応は、統計的解析によって検証された予測精度を著しく改善した。
さらに,音圧レベル(SPL)の異なる条件下でHAAQI-Netのロバスト性を評価し,65dBの基準SPLにおける最適性能を明らかにした。
主観的スコア予測, SPLロバスト性, HAAQI-Net の進歩は補聴器アプリケーションにおける音質評価のスケーラブルなソリューションであり, 音声信号処理および補聴器技術の効率的かつ正確なモデルに寄与する。
関連論文リスト
- Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning [1.024113475677323]
本研究では,従来のノイズキャンセリング手法の優れた代替手段として,ディープニューラルネットワーク(DNN)の利用について検討する。
ConvTasNETネットワークは、WHAM!、LibriMix、MS-2023 DNS Challengeなどのデータセットでトレーニングされた。
高サンプリングレート(48kHz)でトレーニングされたモデルは、トータル・ハーモニック・ディストーション(THD)と生成ニューラルコーデック(WARP-Q)の値に対するはるかに優れた評価指標を提供した。
論文 参考訳(メタデータ) (2024-05-30T16:20:44Z) - Feature Denoising Diffusion Model for Blind Image Quality Assessment [58.5808754919597]
Blind Image Quality Assessment (BIQA) は、基準ベンチマークを使わずに、人間の知覚に合わせて画質を評価することを目的としている。
ディープラーニング BIQA の手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存する。
本稿では,BIQAにおける特徴認知のための拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-01-22T13:38:24Z) - Improving Deep Attractor Network by BGRU and GMM for Speech Separation [0.0]
Deep Attractor Network (DANet) は、音声分離分野における最先端技術である。
本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T06:26:53Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Automatic Estimation of Intelligibility Measure for Consonants in Speech [44.02658023314131]
我々は、停止子音に対する畳み込みニューラルネットワーク(CNN)に基づく回帰モデルを訓練する。
本研究では,通常の聴覚 (NH) 耳に対して,共振器(CV) の音が知覚可能となる雑音比 (SNR) を推定する。
論文 参考訳(メタデータ) (2020-05-12T21:45:20Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。