論文の概要: MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids
- arxiv url: http://arxiv.org/abs/2204.03305v1
- Date: Thu, 7 Apr 2022 09:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:55:15.623633
- Title: MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids
- Title(参考訳): mbi-net : 補聴器用非インタラクティブマルチブランチ音声明瞭度予測モデル
- Authors: Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu
Tsao
- Abstract要約: 本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
- 参考スコア(独自算出の注目度): 22.736703635666164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the user's hearing ability to understand speech in noisy
environments is critical to the development of hearing aid (HA) devices. For
this, it is important to derive a metric that can fairly predict speech
intelligibility for HA users. A straightforward approach is to conduct a
subjective listening test and use the test results as an evaluation metric.
However, conducting large-scale listening tests is time-consuming and
expensive. Therefore, several evaluation metrics were derived as surrogates for
subjective listening test results. In this study, we propose a multi-branched
speech intelligibility prediction model (MBI-Net), for predicting the
subjective intelligibility scores of HA users. MBI-Net consists of two branches
of models, with each branch consisting of a hearing loss model, a cross-domain
feature extraction module, and a speech intelligibility prediction model, to
process speech signals from one channel. The outputs of the two branches are
fused through a linear layer to obtain predicted speech intelligibility scores.
Experimental results confirm the effectiveness of MBI-Net, which produces
higher prediction scores than the baseline system in Track 1 and Track 2 on the
Clarity Prediction Challenge 2022 dataset.
- Abstract(参考訳): ノイズの多い環境下での音声理解能力の向上は、補聴器(HA)の開発に不可欠である。
そのため,HAユーザに対して,音声の明瞭さを正確に予測できる指標を導出することが重要である。
直接的なアプローチは、主観的な聞き取りテストを実行し、テスト結果を評価指標として使うことである。
しかし、大規模なリスニングテストの実行には時間と費用がかかる。
そこで, 主観的聴力検査結果のサロゲートとして評価指標が導出された。
本研究では,haユーザの主観的知性スコアを予測できるマルチブランチ音声知性予測モデル(mbi-net)を提案する。
MBI-Netは2つのモデルのブランチで構成され、各ブランチは1つのチャンネルから音声信号を処理するために、聴覚損失モデル、クロスドメイン特徴抽出モジュール、音声インテリジェンス予測モデルで構成される。
2つの分岐の出力は線形層を通して融合され、予測された音声明瞭度スコアを得る。
実験の結果,トラック1,トラック2のベースラインシステムよりも高い予測スコアを生成するmbi-netの有効性が,clarity prediction challenge 2022データセット上で確認された。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Non-Intrusive Speech Intelligibility Prediction for Hearing Aids using Whisper and Metadata [28.260347585185176]
本稿では,知能予測精度を向上させるための3つの新しい手法を提案する。
MBI-Net+は、第1回Clarity Prediction Challengeの最高パフォーマンスシステムであるMBI-Netの拡張版である。
論文 参考訳(メタデータ) (2023-09-18T07:51:09Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Predicting speech intelligibility from EEG using a dilated convolutional
network [17.56832530408592]
そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。
本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 音声明瞭度の客観的評価に寄与する。
論文 参考訳(メタデータ) (2021-05-14T14:12:52Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。