Fugu-MT 論文翻訳(概要): Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids

論文の概要: Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids

arxiv url: http://arxiv.org/abs/2309.09548v1
Date: Mon, 18 Sep 2023 07:51:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 14:29:31.318318
Title: Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids
Title（参考訳）: ウィスパーを用いた補聴器のマルチブランチ音声明瞭度予測モデル
Authors: Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao
Abstract要約: MBI-Net+ と MBI-Net++ の2つの改良モデルを提案する。 MBI-Net+はMBI-Netと同じモデルアーキテクチャを維持しているが、自己教師付き学習(SSL)音声の埋め込みをWhisper埋め込みに置き換えている。 MBI-Net++はさらに、より精巧な設計を採用し、目的音声の可聴度指標HASPIのフレームレベルおよび発話レベルスコアを予測する補助タスクを組み込んだ。
参考スコア（独自算出の注目度）: 29.945111417270038
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated assessment of speech intelligibility in hearing aid (HA) devices is of great importance. Our previous work introduced a non-intrusive multi-branched speech intelligibility prediction model called MBI-Net, which achieved top performance in the Clarity Prediction Challenge 2022. Based on the promising results of the MBI-Net model, we aim to further enhance its performance by leveraging Whisper embeddings to enrich acoustic features. In this study, we propose two improved models, namely MBI-Net+ and MBI-Net++. MBI-Net+ maintains the same model architecture as MBI-Net, but replaces self-supervised learning (SSL) speech embeddings with Whisper embeddings to deploy cross-domain features. On the other hand, MBI-Net++ further employs a more elaborate design, incorporating an auxiliary task to predict frame-level and utterance-level scores of the objective speech intelligibility metric HASPI (Hearing Aid Speech Perception Index) and multi-task learning. Experimental results confirm that both MBI-Net++ and MBI-Net+ achieve better prediction performance than MBI-Net in terms of multiple metrics, and MBI-Net++ is better than MBI-Net+.
Abstract（参考訳）: 補聴器(HA)装置における音声明瞭度の自動評価は非常に重要である。先行研究では,mbi-netと呼ばれる非インタラクティブなマルチブランチ音声理解性予測モデルを導入し,clarity prediction challenge 2022でトップパフォーマンスを達成した。 MBI-Netモデルの有望な結果に基づいて,Whisperの埋め込みを利用して音響特性を豊かにすることで,その性能をさらに向上することを目指している。本研究では, MBI-Net+ と MBI-Net++ の2つの改良モデルを提案する。 MBI-Net+はMBI-Netと同じモデルアーキテクチャを維持しているが、自己教師付き学習(SSL)音声の埋め込みをWhisper埋め込みに置き換え、クロスドメイン機能をデプロイする。一方、MBI-Net++はより精巧な設計を採用し、客観的音声認識能力指標HASPI(Hearing Aid Speech Perception Index)とマルチタスク学習のフレームレベルおよび発話レベルスコアを予測する補助タスクを取り入れている。実験の結果,MBI-Net++ と MBI-Net+ は MBI-Net よりも,MBI-Net++ は MBI-Net+ より優れていることがわかった。

関連論文リスト

Leveraging Multiple Speech Enhancers for Non-Intrusive Intelligibility Prediction for Hearing-Impaired Listeners [2.249057377377837]
本稿では,音声強調器を用いて並列化信号経路を提供する非侵入的知性予測フレームワークを提案する。予測性能はエンハンサーの選択に依存し,エンハンサーのアンサンブルが最良の結果をもたらすことを示す。当社のアプローチは、複数のデータセットにまたがる非侵入的ベースラインであるCPC2 Championを一貫して上回ります。
論文参考訳（メタデータ） (2025-09-21T08:29:24Z)
Few-shot Hate Speech Detection Based on the MindSpore Framework [2.6396343924017915]
我々は,MindSporeディープラーニングプラットフォーム上に実装された数発のヘイトスピーチ検出のための,高速化されたニューラルネットワークフレームワークであるMS-Hateを提案する。 HateXplain と HSOL-demonstrate という2つのベンチマークデータセットの実験結果から、我々のアプローチは精度、リコール、F1スコアの競争ベースラインを上回っている。これらの知見は, 素早い学習と敵対的増強を併用して, 数ショットシナリオで頑健かつ適応可能なヘイトスピーチ検出を可能にする可能性を示唆している。
論文参考訳（メタデータ） (2025-04-22T15:42:33Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models [29.511898279006175]
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
論文参考訳（メタデータ） (2024-01-24T17:31:07Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。 2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文参考訳（メタデータ） (2022-04-07T09:13:44Z)
MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data [26.94528951545861]
予測ネットワークのロバスト性を改善する「デジェネレータ」を提案する。 VoiceBank-DEMANDデータセットの実験結果は、PSSQスコアが3.8%相対的に改善したことを示している。
論文参考訳（メタデータ） (2022-03-23T12:42:28Z)
HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文参考訳（メタデータ） (2021-11-10T14:10:13Z)
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文参考訳（メタデータ） (2021-11-03T17:30:43Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-14T12:30:41Z)
Improving Speech Enhancement Performance by Leveraging Contextual Broad Phonetic Class Information [33.79855927394387]
音声強調のための追加情報として,音節属性の文脈情報について検討する。本稿では,エンド・ツー・エンドの自動音声認識モデルによる損失を利用してSE性能を向上させることを提案する。その結果,文脈的BPC情報によりSE性能が向上することが確認された。
論文参考訳（メタデータ） (2020-11-15T03:56:37Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。