論文の概要: Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids
- arxiv url: http://arxiv.org/abs/2309.09548v1
- Date: Mon, 18 Sep 2023 07:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:29:31.318318
- Title: Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids
- Title(参考訳): ウィスパーを用いた補聴器のマルチブランチ音声明瞭度予測モデル
- Authors: Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu
Tsao
- Abstract要約: MBI-Net+ と MBI-Net++ の2つの改良モデルを提案する。
MBI-Net+はMBI-Netと同じモデルアーキテクチャを維持しているが、自己教師付き学習(SSL)音声の埋め込みをWhisper埋め込みに置き換えている。
MBI-Net++はさらに、より精巧な設計を採用し、目的音声の可聴度指標HASPIのフレームレベルおよび発話レベルスコアを予測する補助タスクを組み込んだ。
- 参考スコア(独自算出の注目度): 29.945111417270038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated assessment of speech intelligibility in hearing aid (HA) devices is
of great importance. Our previous work introduced a non-intrusive
multi-branched speech intelligibility prediction model called MBI-Net, which
achieved top performance in the Clarity Prediction Challenge 2022. Based on the
promising results of the MBI-Net model, we aim to further enhance its
performance by leveraging Whisper embeddings to enrich acoustic features. In
this study, we propose two improved models, namely MBI-Net+ and MBI-Net++.
MBI-Net+ maintains the same model architecture as MBI-Net, but replaces
self-supervised learning (SSL) speech embeddings with Whisper embeddings to
deploy cross-domain features. On the other hand, MBI-Net++ further employs a
more elaborate design, incorporating an auxiliary task to predict frame-level
and utterance-level scores of the objective speech intelligibility metric HASPI
(Hearing Aid Speech Perception Index) and multi-task learning. Experimental
results confirm that both MBI-Net++ and MBI-Net+ achieve better prediction
performance than MBI-Net in terms of multiple metrics, and MBI-Net++ is better
than MBI-Net+.
- Abstract(参考訳): 補聴器(HA)装置における音声明瞭度の自動評価は非常に重要である。
先行研究では,mbi-netと呼ばれる非インタラクティブなマルチブランチ音声理解性予測モデルを導入し,clarity prediction challenge 2022でトップパフォーマンスを達成した。
MBI-Netモデルの有望な結果に基づいて,Whisperの埋め込みを利用して音響特性を豊かにすることで,その性能をさらに向上することを目指している。
本研究では, MBI-Net+ と MBI-Net++ の2つの改良モデルを提案する。
MBI-Net+はMBI-Netと同じモデルアーキテクチャを維持しているが、自己教師付き学習(SSL)音声の埋め込みをWhisper埋め込みに置き換え、クロスドメイン機能をデプロイする。
一方、MBI-Net++はより精巧な設計を採用し、客観的音声認識能力指標HASPI(Hearing Aid Speech Perception Index)とマルチタスク学習のフレームレベルおよび発話レベルスコアを予測する補助タスクを取り入れている。
実験の結果,MBI-Net++ と MBI-Net+ は MBI-Net よりも,MBI-Net++ は MBI-Net+ より優れていることがわかった。
関連論文リスト
- Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models [29.511898279006175]
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。
トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
論文 参考訳(メタデータ) (2024-01-24T17:31:07Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data [26.94528951545861]
予測ネットワークのロバスト性を改善する「デジェネレータ」を提案する。
VoiceBank-DEMANDデータセットの実験結果は、PSSQスコアが3.8%相対的に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-23T12:42:28Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Improving Speech Enhancement Performance by Leveraging Contextual Broad
Phonetic Class Information [33.79855927394387]
音声強調のための追加情報として,音節属性の文脈情報について検討する。
本稿では,エンド・ツー・エンドの自動音声認識モデルによる損失を利用してSE性能を向上させることを提案する。
その結果,文脈的BPC情報によりSE性能が向上することが確認された。
論文 参考訳(メタデータ) (2020-11-15T03:56:37Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。