論文の概要: HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
- arxiv url: http://arxiv.org/abs/2401.01145v4
- Date: Wed, 5 Jun 2024 16:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:45:21.298796
- Title: HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
- Title(参考訳): HAAQI-Net: 聴覚障害者のための非侵襲的ニューラル音楽品質評価モデル
- Authors: Dyah A. M. G. Wisnu, Stefano Rini, Ryandhimas E. Zezario, Hsin-Min Wang, Yu Tsao,
- Abstract要約: 本稿では、補聴器使用者に適した音質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
HAAQI-Netは、双方向長短期記憶(BLSTM)アーキテクチャを用いて、音楽オーディオクリップや聴覚障害パターンから直接HAAQIのスコアを予測する。
その結果,線形相関係数0.9368,スピアマンランク相関係数0.9486,平均正方形誤差0.0064の予測スコアが得られた。
- 参考スコア(独自算出の注目度): 30.305000305766193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces HAAQI-Net, a non-intrusive deep learning model for music audio quality assessment tailored for hearing aid users. Unlike traditional methods like the Hearing Aid Audio Quality Index (HAAQI), which rely on intrusive comparisons to a reference signal, HAAQI-Net offers a more accessible and efficient alternative. Using a bidirectional Long Short-Term Memory (BLSTM) architecture with attention mechanisms and features from the pre-trained BEATs model, HAAQI-Net predicts HAAQI scores directly from music audio clips and hearing loss patterns. Results show HAAQI-Net's effectiveness, with predicted scores achieving a Linear Correlation Coefficient (LCC) of 0.9368, a Spearman's Rank Correlation Coefficient (SRCC) of 0.9486, and a Mean Squared Error (MSE) of 0.0064, reducing inference time from 62.52 seconds to 2.54 seconds. Although effective, feature extraction via the large BEATs model incurs computational overhead. To address this, a knowledge distillation strategy creates a student distillBEATs model, distilling information from the teacher BEATs model during HAAQI-Net training, reducing required parameters. The distilled HAAQI-Net maintains strong performance with an LCC of 0.9071, an SRCC of 0.9307, and an MSE of 0.0091, while reducing parameters by 75.85% and inference time by 96.46%. This reduction enhances HAAQI-Net's efficiency and scalability, making it viable for real-world music audio quality assessment in hearing aid settings. This work also opens avenues for further research into optimizing deep learning models for specific applications, contributing to audio signal processing and quality assessment by providing insights into developing efficient and accurate models for practical applications in hearing aid technology.
- Abstract(参考訳): 本稿では、補聴器使用者に適した音質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
HAAQI-Netは、参照信号に対する侵入的比較に依存する聴覚支援オーディオ品質指標(HAAQI)のような従来の手法とは異なり、よりアクセシブルで効率的な代替手段を提供する。
HAAQI-Netは、双方向長短期記憶(BLSTM)アーキテクチャを用いて、事前訓練されたBEATsモデルから、音楽オーディオクリップや聴覚障害パターンから直接HAAQIスコアを予測する。
その結果,線形相関係数(LCC)0.9368,スピアマンランク相関係数(SRCC)0.9486,平均正方形誤差(MSE)0.0064,推定時間62.52秒から2.54秒が得られた。
有効ではあるが、大きなBEATモデルによる特徴抽出は計算オーバーヘッドを発生させる。
これを解決するため、知識蒸留戦略は学生蒸留BEATsモデルを作成し、HAAQI-Netトレーニング中に教師BEATsモデルから情報を蒸留し、必要なパラメータを減らす。
蒸留されたHAAQI-Netは、LCCが0.9071、SRCCが0.9307、MSEが0.0091、パラメータが75.85%、推測時間が96.46%の強い性能を維持している。
この削減により、HAAQI-Netの効率性とスケーラビリティが向上し、補聴器設定における実環境の音楽品質評価が可能となる。
この研究は、特定のアプリケーションに対するディープラーニングモデルの最適化に関するさらなる研究の道を開き、補聴器技術における実践的応用のための効率的で正確なモデルの開発に関する洞察を提供することで、音声信号処理と品質評価に寄与する。
関連論文リスト
- Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning [1.024113475677323]
本研究では,従来のノイズキャンセリング手法の優れた代替手段として,ディープニューラルネットワーク(DNN)の利用について検討する。
ConvTasNETネットワークは、WHAM!、LibriMix、MS-2023 DNS Challengeなどのデータセットでトレーニングされた。
高サンプリングレート(48kHz)でトレーニングされたモデルは、トータル・ハーモニック・ディストーション(THD)と生成ニューラルコーデック(WARP-Q)の値に対するはるかに優れた評価指標を提供した。
論文 参考訳(メタデータ) (2024-05-30T16:20:44Z) - Feature Denoising Diffusion Model for Blind Image Quality Assessment [58.5808754919597]
Blind Image Quality Assessment (BIQA) は、基準ベンチマークを使わずに、人間の知覚に合わせて画質を評価することを目的としている。
ディープラーニング BIQA の手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存する。
本稿では,BIQAにおける特徴認知のための拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-01-22T13:38:24Z) - Improving Deep Attractor Network by BGRU and GMM for Speech Separation [0.0]
Deep Attractor Network (DANet) は、音声分離分野における最先端技術である。
本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T06:26:53Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Automatic Estimation of Intelligibility Measure for Consonants in Speech [44.02658023314131]
我々は、停止子音に対する畳み込みニューラルネットワーク(CNN)に基づく回帰モデルを訓練する。
本研究では,通常の聴覚 (NH) 耳に対して,共振器(CV) の音が知覚可能となる雑音比 (SNR) を推定する。
論文 参考訳(メタデータ) (2020-05-12T21:45:20Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。