論文の概要: HAAQI-Net: A non-intrusive neural music quality assessment model for
hearing aids
- arxiv url: http://arxiv.org/abs/2401.01145v2
- Date: Tue, 30 Jan 2024 08:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-31 18:16:45.743822
- Title: HAAQI-Net: A non-intrusive neural music quality assessment model for
hearing aids
- Title(参考訳): HAAQI-Net: 補聴器の非侵襲的神経音楽品質評価モデル
- Authors: Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E.
Zezario, Hsin-Min Wang, Yu Tsao
- Abstract要約: 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。
LCCは0.9368、SRCCは0.9486、MSEは0.0064である。
- 参考スコア(独自算出の注目度): 30.305000305766193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces HAAQI-Net, a non-intrusive deep learning model for
music quality assessment tailored to hearing aid users. In contrast to
traditional methods like the Hearing Aid Audio Quality Index (HAAQI), HAAQI-Net
utilizes a Bidirectional Long Short-Term Memory (BLSTM) with attention. It
takes an assessed music sample and a hearing loss pattern as input, generating
a predicted HAAQI score. The model employs the pre-trained Bidirectional
Encoder representation from Audio Transformers (BEATs) for acoustic feature
extraction. Comparing predicted scores with ground truth, HAAQI-Net achieves a
Longitudinal Concordance Correlation (LCC) of 0.9368, Spearman's Rank
Correlation Coefficient (SRCC) of 0.9486, and Mean Squared Error (MSE) of
0.0064. Notably, this high performance comes with a substantial reduction in
inference time: from 62.52 seconds (by HAAQI) to 2.54 seconds (by HAAQI-Net),
serving as an efficient music quality assessment model for hearing aid users.
- Abstract(参考訳): 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
Hearing Aid Audio Quality Index (HAAQI)のような従来の手法とは対照的に、HAAQI-Netは二方向長短期記憶(BLSTM)に注意を払っている。
評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。
このモデルは、音響特徴抽出のために、BEAT(Audio Transformer)から事前訓練された双方向エンコーダ表現を採用する。
HAAQI-Netは、予測されたスコアと地上の真実と比較すると、LCCの0.9368、SRCCの0.9486、平均正方形誤差(MSE)の0.0064を達成している。
ハイパフォーマンスは62.52秒(HAAQI)から2.54秒(HAAQI-Net)に短縮され、補聴器使用者の効率的な音楽品質評価モデルとして機能する。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models [45.90037602677841]
本稿では,音声事前学習モデルを利用した頑健なAnomalous Sound Detection (ASD)モデルを提案する。
マシン操作データを用いてこれらのモデルを微調整し、データ拡張戦略としてSpecAugを使用します。
実験では,従来のSOTAモデルと比較して6.48%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-09-11T05:19:38Z) - Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning [1.024113475677323]
本研究では,従来のノイズキャンセリング手法の優れた代替手段として,ディープニューラルネットワーク(DNN)の利用について検討する。
ConvTasNETネットワークは、WHAM!、LibriMix、MS-2023 DNS Challengeなどのデータセットでトレーニングされた。
高サンプリングレート(48kHz)でトレーニングされたモデルは、トータル・ハーモニック・ディストーション(THD)と生成ニューラルコーデック(WARP-Q)の値に対するはるかに優れた評価指標を提供した。
論文 参考訳(メタデータ) (2024-05-30T16:20:44Z) - Feature Denoising Diffusion Model for Blind Image Quality Assessment [58.5808754919597]
Blind Image Quality Assessment (BIQA) は、基準ベンチマークを使わずに、人間の知覚に合わせて画質を評価することを目的としている。
ディープラーニング BIQA の手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存する。
本稿では,BIQAにおける特徴認知のための拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-01-22T13:38:24Z) - Improving Deep Attractor Network by BGRU and GMM for Speech Separation [0.0]
Deep Attractor Network (DANet) は、音声分離分野における最先端技術である。
本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T06:26:53Z) - Speaker Diaphragm Excursion Prediction: deep attention and online
adaptation [2.8349018797311314]
本稿では,非線形探索を正確にモデル化し,予測するための効率的なDLソリューションを提案する。
提案アルゴリズムは2つの話者と3つの典型的な展開シナリオで検証され、残留DCの$99%は0.1mm未満である。
論文 参考訳(メタデータ) (2023-05-11T08:17:55Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Automatic Estimation of Intelligibility Measure for Consonants in Speech [44.02658023314131]
我々は、停止子音に対する畳み込みニューラルネットワーク(CNN)に基づく回帰モデルを訓練する。
本研究では,通常の聴覚 (NH) 耳に対して,共振器(CV) の音が知覚可能となる雑音比 (SNR) を推定する。
論文 参考訳(メタデータ) (2020-05-12T21:45:20Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。