論文の概要: HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
- arxiv url: http://arxiv.org/abs/2401.01145v4
- Date: Wed, 5 Jun 2024 16:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:45:21.298796
- Title: HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
- Title(参考訳): HAAQI-Net: 聴覚障害者のための非侵襲的ニューラル音楽品質評価モデル
- Authors: Dyah A. M. G. Wisnu, Stefano Rini, Ryandhimas E. Zezario, Hsin-Min Wang, Yu Tsao,
- Abstract要約: 本稿では、補聴器使用者に適した音質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
HAAQI-Netは、双方向長短期記憶(BLSTM)アーキテクチャを用いて、音楽オーディオクリップや聴覚障害パターンから直接HAAQIのスコアを予測する。
その結果,線形相関係数0.9368,スピアマンランク相関係数0.9486,平均正方形誤差0.0064の予測スコアが得られた。
- 参考スコア(独自算出の注目度): 30.305000305766193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces HAAQI-Net, a non-intrusive deep learning model for music audio quality assessment tailored for hearing aid users. Unlike traditional methods like the Hearing Aid Audio Quality Index (HAAQI), which rely on intrusive comparisons to a reference signal, HAAQI-Net offers a more accessible and efficient alternative. Using a bidirectional Long Short-Term Memory (BLSTM) architecture with attention mechanisms and features from the pre-trained BEATs model, HAAQI-Net predicts HAAQI scores directly from music audio clips and hearing loss patterns. Results show HAAQI-Net's effectiveness, with predicted scores achieving a Linear Correlation Coefficient (LCC) of 0.9368, a Spearman's Rank Correlation Coefficient (SRCC) of 0.9486, and a Mean Squared Error (MSE) of 0.0064, reducing inference time from 62.52 seconds to 2.54 seconds. Although effective, feature extraction via the large BEATs model incurs computational overhead. To address this, a knowledge distillation strategy creates a student distillBEATs model, distilling information from the teacher BEATs model during HAAQI-Net training, reducing required parameters. The distilled HAAQI-Net maintains strong performance with an LCC of 0.9071, an SRCC of 0.9307, and an MSE of 0.0091, while reducing parameters by 75.85% and inference time by 96.46%. This reduction enhances HAAQI-Net's efficiency and scalability, making it viable for real-world music audio quality assessment in hearing aid settings. This work also opens avenues for further research into optimizing deep learning models for specific applications, contributing to audio signal processing and quality assessment by providing insights into developing efficient and accurate models for practical applications in hearing aid technology.
- Abstract(参考訳): 本稿では、補聴器使用者に適した音質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
HAAQI-Netは、参照信号に対する侵入的比較に依存する聴覚支援オーディオ品質指標(HAAQI)のような従来の手法とは異なり、よりアクセシブルで効率的な代替手段を提供する。
HAAQI-Netは、双方向長短期記憶(BLSTM)アーキテクチャを用いて、事前訓練されたBEATsモデルから、音楽オーディオクリップや聴覚障害パターンから直接HAAQIスコアを予測する。
その結果,線形相関係数(LCC)0.9368,スピアマンランク相関係数(SRCC)0.9486,平均正方形誤差(MSE)0.0064,推定時間62.52秒から2.54秒が得られた。
有効ではあるが、大きなBEATモデルによる特徴抽出は計算オーバーヘッドを発生させる。
これを解決するため、知識蒸留戦略は学生蒸留BEATsモデルを作成し、HAAQI-Netトレーニング中に教師BEATsモデルから情報を蒸留し、必要なパラメータを減らす。
蒸留されたHAAQI-Netは、LCCが0.9071、SRCCが0.9307、MSEが0.0091、パラメータが75.85%、推測時間が96.46%の強い性能を維持している。
この削減により、HAAQI-Netの効率性とスケーラビリティが向上し、補聴器設定における実環境の音楽品質評価が可能となる。
この研究は、特定のアプリケーションに対するディープラーニングモデルの最適化に関するさらなる研究の道を開き、補聴器技術における実践的応用のための効率的で正確なモデルの開発に関する洞察を提供することで、音声信号処理と品質評価に寄与する。
関連論文リスト
- Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models [45.90037602677841]
本稿では,音声事前学習モデルを利用した頑健なAnomalous Sound Detection (ASD)モデルを提案する。
マシン操作データを用いてこれらのモデルを微調整し、データ拡張戦略としてSpecAugを使用します。
実験では,従来のSOTAモデルと比較して6.48%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-09-11T05:19:38Z) - Feature Denoising Diffusion Model for Blind Image Quality Assessment [58.5808754919597]
Blind Image Quality Assessment (BIQA) は、基準ベンチマークを使わずに、人間の知覚に合わせて画質を評価することを目的としている。
ディープラーニング BIQA の手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存する。
本稿では,BIQAにおける特徴認知のための拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-01-22T13:38:24Z) - Speaker Diaphragm Excursion Prediction: deep attention and online
adaptation [2.8349018797311314]
本稿では,非線形探索を正確にモデル化し,予測するための効率的なDLソリューションを提案する。
提案アルゴリズムは2つの話者と3つの典型的な展開シナリオで検証され、残留DCの$99%は0.1mm未満である。
論文 参考訳(メタデータ) (2023-05-11T08:17:55Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。