論文の概要: Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models
- arxiv url: http://arxiv.org/abs/2401.13611v1
- Date: Wed, 24 Jan 2024 17:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 13:54:57.676584
- Title: Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models
- Title(参考訳): 中間asr特徴と人間の記憶モデルを用いた聴覚障害者の非インタラクティブ音声明瞭度予測
- Authors: Rhiannon Mogridge, George Close, Robert Sutherland, Thomas Hain, Jon
Barker, Stefan Goetze, Anton Ragni
- Abstract要約: この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。
トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
- 参考スコア(独自算出の注目度): 29.511898279006175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have been successfully used for non-intrusive speech
intelligibility prediction. Recently, the use of feature representations
sourced from intermediate layers of pre-trained self-supervised and
weakly-supervised models has been found to be particularly useful for this
task. This work combines the use of Whisper ASR decoder layer representations
as neural network input features with an exemplar-based, psychologically
motivated model of human memory to predict human intelligibility ratings for
hearing-aid users. Substantial performance improvement over an established
intrusive HASPI baseline system is found, including on enhancement systems and
listeners unseen in the training data, with a root mean squared error of 25.3
compared with the baseline of 28.7.
- Abstract(参考訳): ニューラルネットワークは、非侵入的音声の知性予測に成功している。
近年,事前学習された自己教師型モデルと弱教師型モデルの中間層から得られる特徴表現の利用は,この課題に特に有用であることが判明した。
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせて、補聴器使用者の人間の知能評価を予測する。
確立された侵入型haspiベースラインシステムに対する実質的な性能改善が見られ、トレーニングデータに含まれない強化システムやリスナー、根平均二乗誤差が28.7のベースラインと比較して25.3である。
関連論文リスト
- Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals
using Self Supervised Speech Representations [21.237026538221404]
SQ評価の非侵襲的予測手法は、難聴者に対するインテリジェンス予測に拡張される。
自己教師付き表現は,非侵入予測モデルの入力特徴として有用であることがわかった。
論文 参考訳(メタデータ) (2023-07-25T11:42:52Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - NCTV: Neural Clamping Toolkit and Visualization for Neural Network
Calibration [66.22668336495175]
ニューラルネットワークのキャリブレーションに対する考慮の欠如は、人間から信頼を得ることはないだろう。
我々はNeural Clamping Toolkitを紹介した。これは開発者が最先端のモデルに依存しないキャリブレーションモデルを採用するのを支援するために設計された最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2022-11-29T15:03:05Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Robust Deep Neural Network Estimation for Multi-dimensional Functional
Data [0.22843885788439797]
多次元関数データから位置関数のロバストな推定法を提案する。
提案した推定器は、ReLUアクティベーション機能を持つディープニューラルネットワークに基づいている。
また,アルツハイマー病患者の2Dおよび3D画像の解析にも応用した。
論文 参考訳(メタデータ) (2022-05-19T14:53:33Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - PoCoNet: Better Speech Enhancement with Frequency-Positional Embeddings,
Semi-Supervised Conversational Data, and Biased Loss [26.851416177670096]
PoCoNetは畳み込みニューラルネットワークで、周波数位置埋め込みを用いることで、初期のレイヤで周波数依存の機能をより効率的に構築することができる。
半教師付き手法は、ノイズの多いデータセットを事前に拡張することで、会話訓練データの量を増やすのに役立つ。
音声品質の保存に偏った新たな損失関数は、音声品質に対する人間の知覚的意見をよりよく一致させるのに役立つ。
論文 参考訳(メタデータ) (2020-08-11T01:24:45Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。