論文の概要: (SimPhon Speech Test): A Data-Driven Method for In Silico Design and Validation of a Phonetically Balanced Speech Test
- arxiv url: http://arxiv.org/abs/2506.11620v1
- Date: Fri, 13 Jun 2025 09:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.740314
- Title: (SimPhon Speech Test): A Data-Driven Method for In Silico Design and Validation of a Phonetically Balanced Speech Test
- Title(参考訳): (SimPhon Speech Test):音素バランス音声テストのシリコ設計と検証のためのデータ駆動手法
- Authors: Stefan Bleeck,
- Abstract要約: そこで本研究では,Simmatic Phoneme Speech Test (SimPhon Speech Test) 手法について紹介する。
制御された音響劣化下での音声刺激の処理により、まず最も一般的な音素混和パターンを同定する。
これらのパターンは、候補語対の大きな集合の、データ駆動型キュレーションを導く。
SimPhon Speech Test-25テスト項目の診断性能は,標準音声明瞭度指数の予測値と有意な相関は示さなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional audiometry often provides an incomplete characterization of the functional impact of hearing loss on speech understanding, particularly for supra-threshold deficits common in presbycusis. This motivates the development of more diagnostically specific speech perception tests. We introduce the Simulated Phoneme Speech Test (SimPhon Speech Test) methodology, a novel, multi-stage computational pipeline for the in silico design and validation of a phonetically balanced minimal-pair speech test. This methodology leverages a modern Automatic Speech Recognition (ASR) system as a proxy for a human listener to simulate the perceptual effects of sensorineural hearing loss. By processing speech stimuli under controlled acoustic degradation, we first identify the most common phoneme confusion patterns. These patterns then guide the data-driven curation of a large set of candidate word pairs derived from a comprehensive linguistic corpus. Subsequent phases involving simulated diagnostic testing, expert human curation, and a final, targeted sensitivity analysis systematically reduce the candidates to a final, optimized set of 25 pairs (the SimPhon Speech Test-25). A key finding is that the diagnostic performance of the SimPhon Speech Test-25 test items shows no significant correlation with predictions from the standard Speech Intelligibility Index (SII), suggesting the SimPhon Speech Test captures perceptual deficits beyond simple audibility. This computationally optimized test set offers a significant increase in efficiency for audiological test development, ready for initial human trials.
- Abstract(参考訳): 従来の音響測定は、聴覚障害が音声理解に与える影響、特にプレズビカシスに共通する超閾値欠損に対して不完全な特徴を与えることが多い。
これは、より診断的に特異的な音声認識テストの開発を動機付けている。
そこで本研究では,音のバランスの取れた最小ペア音声テストのシステム設計と検証のための,新しい多段階計算パイプラインであるSimulated Phoneme Speech Test(SimPhon Speech Test)手法を提案する。
この手法は, 感音難聴の知覚的影響をシミュレートするために, 人間の聴取者の代用として, 現代の自動音声認識(ASR)システムを利用する。
制御された音響劣化下での音声刺激の処理により、まず最も一般的な音素混和パターンを同定する。
これらのパターンは、包括的言語コーパスから派生した大量の候補単語対の、データ駆動型キュレーションを導出する。
その後、シミュレートされた診断テスト、専門家によるキュレーション、最終的な目標感度分析を含むフェーズは、候補を25対の最終最適化セット(SimPhon Speech Test-25)に体系的に還元する(SimPhon Speech Test-25)。
鍵となる発見は、SimPhon Speech Test-25テスト項目の診断性能が、標準音声明瞭度指標(SII)の予測と有意な相関を示さないことであり、SimPhon Speech Testは、単純な聴力以上の知覚的欠陥を捉えることを示唆している。
この計算に最適化されたテストセットは、人間の最初の試行に備えたオーディオテスト開発において、大幅な効率向上をもたらす。
関連論文リスト
- Advancing Hearing Assessment: An ASR-Based Frequency-Specific Speech Test for Diagnosing Presbycusis [0.0]
従来の音響測定では、聴覚障害が音声理解に与える影響を完全に特徴づけることができない。
本稿では,新しい音声認識(ASR)に基づく周波数固有音声テストの開発とシミュレーション評価について述べる。
論文 参考訳(メタデータ) (2025-05-28T11:06:22Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Identification of Cognitive Decline from Spoken Language through Feature
Selection and the Bag of Acoustic Words Model [0.0]
記憶障害の症状の早期発見は、集団の健康確保に重要な役割を担っている。
臨床環境における標準化された音声テストの欠如は、自然音声言語を解析するための自動機械学習技術の開発にますます重点を置いている。
この研究は特徴選択に関するアプローチを示し、ジュネーブの最小音響パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択することを可能にする。
論文 参考訳(メタデータ) (2024-02-02T17:06:03Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Multilingual Alzheimer's Dementia Recognition through Spontaneous
Speech: a Signal Processing Grand Challenge [18.684024762601215]
この信号処理グランドチャレンジ(SPGC)は、社会的・医療的関連性の難しい自動予測問題をターゲットにしている。
チャレンジは、ある言語(英語)における音声に基づいて構築された予測モデルが、他の言語(ギリシャ語)に一般化する程度を評価するように設計されている。
論文 参考訳(メタデータ) (2023-01-13T14:09:13Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。