論文の概要: Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids
- arxiv url: http://arxiv.org/abs/2309.09548v1
- Date: Mon, 18 Sep 2023 07:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:29:31.318318
- Title: Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids
- Title(参考訳): ウィスパーを用いた補聴器のマルチブランチ音声明瞭度予測モデル
- Authors: Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu
Tsao
- Abstract要約: MBI-Net+ と MBI-Net++ の2つの改良モデルを提案する。
MBI-Net+はMBI-Netと同じモデルアーキテクチャを維持しているが、自己教師付き学習(SSL)音声の埋め込みをWhisper埋め込みに置き換えている。
MBI-Net++はさらに、より精巧な設計を採用し、目的音声の可聴度指標HASPIのフレームレベルおよび発話レベルスコアを予測する補助タスクを組み込んだ。
- 参考スコア(独自算出の注目度): 29.945111417270038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated assessment of speech intelligibility in hearing aid (HA) devices is
of great importance. Our previous work introduced a non-intrusive
multi-branched speech intelligibility prediction model called MBI-Net, which
achieved top performance in the Clarity Prediction Challenge 2022. Based on the
promising results of the MBI-Net model, we aim to further enhance its
performance by leveraging Whisper embeddings to enrich acoustic features. In
this study, we propose two improved models, namely MBI-Net+ and MBI-Net++.
MBI-Net+ maintains the same model architecture as MBI-Net, but replaces
self-supervised learning (SSL) speech embeddings with Whisper embeddings to
deploy cross-domain features. On the other hand, MBI-Net++ further employs a
more elaborate design, incorporating an auxiliary task to predict frame-level
and utterance-level scores of the objective speech intelligibility metric HASPI
(Hearing Aid Speech Perception Index) and multi-task learning. Experimental
results confirm that both MBI-Net++ and MBI-Net+ achieve better prediction
performance than MBI-Net in terms of multiple metrics, and MBI-Net++ is better
than MBI-Net+.
- Abstract(参考訳): 補聴器(HA)装置における音声明瞭度の自動評価は非常に重要である。
先行研究では,mbi-netと呼ばれる非インタラクティブなマルチブランチ音声理解性予測モデルを導入し,clarity prediction challenge 2022でトップパフォーマンスを達成した。
MBI-Netモデルの有望な結果に基づいて,Whisperの埋め込みを利用して音響特性を豊かにすることで,その性能をさらに向上することを目指している。
本研究では, MBI-Net+ と MBI-Net++ の2つの改良モデルを提案する。
MBI-Net+はMBI-Netと同じモデルアーキテクチャを維持しているが、自己教師付き学習(SSL)音声の埋め込みをWhisper埋め込みに置き換え、クロスドメイン機能をデプロイする。
一方、MBI-Net++はより精巧な設計を採用し、客観的音声認識能力指標HASPI(Hearing Aid Speech Perception Index)とマルチタスク学習のフレームレベルおよび発話レベルスコアを予測する補助タスクを取り入れている。
実験の結果,MBI-Net++ と MBI-Net+ は MBI-Net よりも,MBI-Net++ は MBI-Net+ より優れていることがわかった。
関連論文リスト
- A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in
Intellectual Property [51.43412400869531]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々は,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。
我々はまた,多言語IP関連テキストデータを微調整したBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)を開発した。
論文 参考訳(メタデータ) (2024-02-26T08:27:50Z) - MTI-Net: A Multi-Target Speech Intelligibility Prediction Model [25.124218779681875]
本研究では,MTI-Netと呼ばれるマルチタスク音声のインテリジェンス予測モデルを提案し,人間と機械のインテリジェンス対策を同時に予測する。
具体的には、MTI-Netは、主観的な聞き取りテスト結果と単語誤り率(WER)のスコアを予測するように設計されている。
論文 参考訳(メタデータ) (2022-04-07T09:17:04Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - Romanian Speech Recognition Experiments from the ROBIN Project [0.21485350418225244]
本稿では,高速(ネットワーク自体から100ms未満のレイテンシ)に焦点をあてたディープニューラルネットワークを用いた音声認識実験について述べる。
重要な特徴の1つは低レイテンシであるが、最終的なディープニューラルネットワークモデルは、ルーマニア語を認識するための技術結果の状態を達成している。
論文 参考訳(メタデータ) (2021-11-23T17:35:00Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。