論文の概要: Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals
using Self Supervised Speech Representations
- arxiv url: http://arxiv.org/abs/2307.13423v3
- Date: Thu, 7 Dec 2023 11:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 21:32:34.275933
- Title: Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals
using Self Supervised Speech Representations
- Title(参考訳): 自己教師付き音声表現を用いた聴覚障害者の非侵入知性予測
- Authors: George Close, Thomas Hain, Stefan Goetze
- Abstract要約: SQ評価の非侵襲的予測手法は、難聴者に対するインテリジェンス予測に拡張される。
自己教師付き表現は,非侵入予測モデルの入力特徴として有用であることがわかった。
- 参考スコア(独自算出の注目度): 21.237026538221404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech representations (SSSRs) have been successfully applied
to a number of speech-processing tasks, e.g. as feature extractor for speech
quality (SQ) prediction, which is, in turn, relevant for assessment and
training speech enhancement systems for users with normal or impaired hearing.
However, exact knowledge of why and how quality-related information is encoded
well in such representations remains poorly understood. In this work,
techniques for non-intrusive prediction of SQ ratings are extended to the
prediction of intelligibility for hearing-impaired users. It is found that
self-supervised representations are useful as input features to non-intrusive
prediction models, achieving competitive performance to more complex systems. A
detailed analysis of the performance depending on Clarity Prediction Challenge
1 listeners and enhancement systems indicates that more data might be needed to
allow generalisation to unknown systems and (hearing-impaired) individuals
- Abstract(参考訳): 自己教師付き音声表現(ssr)は、例えば、音声品質予測のための特徴抽出器(sq)のような、通常または聴覚障害のあるユーザのための音声強調システムの評価および訓練に関連する多くの音声処理タスクにうまく適用されている。
しかしながら、なぜ、どのように品質関連の情報が適切にエンコードされているのかについての正確な知識は、いまだによく分かっていない。
本研究では,SQ評価の非侵襲的予測手法を,難聴者に対する信頼度予測に拡張する。
自己教師付き表現は、非侵入予測モデルの入力特徴として有用であり、より複雑なシステムに対する競合性能を達成する。
Clarity Prediction Challenge 1リスナーとエンハンスメントシステムによるパフォーマンスの詳細な分析は、未知のシステムや(聴覚障害のある)個人への一般化を可能にするために、より多くのデータが必要であることを示唆している。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Third-Party Language Model Performance Prediction from Instruction [59.574169249307054]
言語モデルに基づく命令フォローシステムは、最近、多くのベンチマークタスクのパフォーマンスが向上している。
ユーザは、応答が正確かどうかを判断することなく、命令付きモデルを容易に促すことができる。
本稿では,タスク上での指示追従システムの評価から得られたメトリックを予測するために,別のモデルを訓練した第三者のパフォーマンス予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:53:47Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models [29.511898279006175]
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。
トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
論文 参考訳(メタデータ) (2024-01-24T17:31:07Z) - Personalized Predictive ASR for Latency Reduction in Voice Assistants [29.237198363254752]
本稿では,部分的に観測された発話から全発話を予測し,予測された発話に基づいて応答をプリフェッチする予測自動音声認識を提案する。
内部音声アシスタントデータセットと公共SLURPデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-23T08:05:43Z) - Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement [23.974815078687445]
クリーンな音声とノイズの多い音声の特徴符号化の距離は、心理音響的動機付けによる音声品質と聞きやすさの尺度と強く相関している。
損失関数としてこの距離を用いた実験を行い、STFTスペクトル距離に基づく損失よりも性能を向上した。
論文 参考訳(メタデータ) (2023-01-11T10:20:56Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - InQSS: a speech intelligibility assessment model using a multi-task
learning network [21.037410575414995]
本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。
得られたモデルは、知性スコアだけでなく、音声の品質スコアも予測できる。
論文 参考訳(メタデータ) (2021-11-04T02:01:27Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。