論文の概要: Automated speech audiometry: Can it work using open-source pre-trained
Kaldi-NL automatic speech recognition?
- arxiv url: http://arxiv.org/abs/2312.12269v2
- Date: Thu, 11 Jan 2024 15:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:58:09.541464
- Title: Automated speech audiometry: Can it work using open-source pre-trained
Kaldi-NL automatic speech recognition?
- Title(参考訳): 自動音声測定:オープンソースの訓練済みKaldi-NL自動音声認識は有効か?
- Authors: Gloria Araiza-Illan, Luke Meyer, Khiet P. Truong and Deniz Baskent
- Abstract要約: 人間の監督なしに音声応答を評価できる自動DINテスト設定を提案する。
30人のオランダ成人がDIN+カルディ-NL検査を完了した。
研究1では,単語誤り率(WER, summed decoding error)によるKaldi-NLの性能評価を行った。
研究2では、カルディ-NLの復号誤りを伴う三重項がDIN試験出力に及ぼす影響を解析した。
- 参考スコア(独自算出の注目度): 2.5304380964735684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A practical speech audiometry tool is the digits-in-noise (DIN) test for
hearing screening of populations of varying ages and hearing status. The test
is usually conducted by a human supervisor (e.g., clinician), who scores the
responses spoken by the listener, or online, where a software scores the
responses entered by the listener. The test has 24 digit-triplets presented in
an adaptive staircase procedure, resulting in a speech reception threshold
(SRT). We propose an alternative automated DIN test setup that can evaluate
spoken responses whilst conducted without a human supervisor, using the
open-source automatic speech recognition toolkit, Kaldi-NL. Thirty
self-reported normal-hearing Dutch adults (19-64 years) completed one
DIN+Kaldi-NL test. Their spoken responses were recorded, and used for
evaluating the transcript of decoded responses by Kaldi-NL. Study 1 evaluated
the Kaldi-NL performance through its word error rate (WER), percentage of
summed decoding errors regarding only digits found in the transcript compared
to the total number of digits present in the spoken responses. Average WER
across participants was 5.0% (range 0 - 48%, SD = 8.8%), with average decoding
errors in three triplets per participant. Study 2 analysed the effect that
triplets with decoding errors from Kaldi-NL had on the DIN test output (SRT),
using bootstrapping simulations. Previous research indicated 0.70 dB as the
typical within-subject SRT variability for normal-hearing adults. Study 2
showed that up to four triplets with decoding errors produce SRT variations
within this range, suggesting that our proposed setup could be feasible for
clinical applications.
- Abstract(参考訳): 実際の音声測定ツールとして,年齢や聴力の異なる個体群の聴力スクリーニングのためのDINテストがある。
テストは通常、リスナーが話す応答を得点する人間の監督者(臨床医など)や、リスナーが入力した応答をソフトウェアがスコア付けするオンラインによって行われる。
このテストでは24桁のトリプレットが適応階段手順で提示され、音声受信しきい値(srt)となる。
本稿では,オープンソースの自動音声認識ツールキットであるkaldi-nlを用いて,人間の監督なしに音声応答を評価可能な代替自動dinテストセットアップを提案する。
30人のオランダ成人(19-64歳)がDIN+カルディ-NL試験を完了した。
音声応答を録音し,Kaldi-NLによるデコード応答の転写評価に利用した。
研究1では, 単語誤り率(WER)によるカルディ-NLの性能評価を行い, 音声応答に含まれる数字の総数と比較して, 文字起こし中の数字のみに関する要約復号誤差の割合を調べた。
参加者の平均werは5.%(0~48%、sd=8.8%)で、平均復号誤差は参加者1人あたり3回であった。
研究2では、Kaldi-NLの復号誤りがDINテスト出力(SRT)に与える影響をブートストラップシミュレーションを用いて分析した。
前回の研究では、正常な成人のsrt変動性は0.70dbであった。
研究2では, 復号誤りを伴う最大4個の三重項がSRTの変動を生じ, 臨床応用の可能性が示唆された。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Personalization for BERT-based Discriminative Speech Recognition
Rescoring [13.58828513686159]
認識を改善するために、パーソナライズされたコンテンツを使用する新しい3つのアプローチ:ガゼッタ、プロンプト、および、クロスアテンションベースのエンコーダ-デコーダモデル。
パーソナライズされたエンティティを持つテストセットにおいて、これらのアプローチは、ニューラルネットワークのベースラインに対して、ワードエラー率を10%以上改善することを示す。
論文 参考訳(メタデータ) (2023-07-13T15:54:32Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Going Beyond the Cookie Theft Picture Test: Detecting Cognitive
Impairments using Acoustic Features [0.18472148461613155]
標準化されたテストの音響的特徴は、認知障害者と非障害者とを確実に識別するために有効であることを示す。
インタビューのランダムな音声サンプルから抽出した特徴でさえ、認知障害の識別要因であることを示す。
論文 参考訳(メタデータ) (2022-06-10T12:04:22Z) - Parkinson's disease diagnostics using AI and natural language knowledge
transfer [0.0]
PDと診断された症例における生音声の分類のための深層学習手法を提案する。
対象は, PD患者38名, 健常者10名で, 50歳以上であった。
論文 参考訳(メタデータ) (2022-04-26T19:39:29Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。