論文の概要: Advancing Hearing Assessment: An ASR-Based Frequency-Specific Speech Test for Diagnosing Presbycusis
- arxiv url: http://arxiv.org/abs/2505.22231v1
- Date: Wed, 28 May 2025 11:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.563681
- Title: Advancing Hearing Assessment: An ASR-Based Frequency-Specific Speech Test for Diagnosing Presbycusis
- Title(参考訳): アドバンス聴力評価 : プレズビカシス診断のためのASRを用いた周波数特異的音声検査
- Authors: Stefan Bleeck,
- Abstract要約: 従来の音響測定では、聴覚障害が音声理解に与える影響を完全に特徴づけることができない。
本稿では,新しい音声認識(ASR)に基づく周波数固有音声テストの開発とシミュレーション評価について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional audiometry often fails to fully characterize the functional impact of hearing loss on speech understanding, particularly supra-threshold deficits and frequency-specific perception challenges in conditions like presbycusis. This paper presents the development and simulated evaluation of a novel Automatic Speech Recognition (ASR)-based frequency-specific speech test designed to provide granular diagnostic insights. Our approach leverages ASR to simulate the perceptual effects of moderate sloping hearing loss by processing speech stimuli under controlled acoustic degradation and subsequently analyzing phoneme-level confusion patterns. Key findings indicate that simulated hearing loss introduces specific phoneme confusions, predominantly affecting high-frequency consonants (e.g., alveolar/palatal to labiodental substitutions) and leading to significant phoneme deletions, consistent with the acoustic cues degraded in presbycusis. A test battery curated from these ASR-derived confusions demonstrated diagnostic value, effectively differentiating between simulated normal-hearing and hearing-impaired listeners in a comprehensive simulation. This ASR-driven methodology offers a promising avenue for developing objective, granular, and frequency-specific hearing assessment tools that complement traditional audiometry. Future work will focus on validating these findings with human participants and exploring the integration of advanced AI models for enhanced diagnostic precision.
- Abstract(参考訳): 従来の音響測定では、聴覚障害が音声理解に与える影響、特に超閾値欠損や、プレズビカシスのような条件下での周波数依存性の知覚課題を完全に特徴づけることができないことが多い。
本稿では,ASR(Automatic Speech Recognition, 自動音声認識)に基づく周波数固有音声テストの開発とそのシミュレーション評価について述べる。
提案手法は, 音素レベルの混乱パターンを解析し, 音素レベルの音響劣化下での音声刺激処理により中等度傾斜聴力低下の知覚効果をシミュレートするために, ASRを利用する。
要旨は, 聴力低下が特定の音素の混乱を引き起こし, 主に高頻度子音(例えば, 歯槽・口蓋・口蓋の口蓋置換)に影響を及ぼし, 有意な音素欠失を生じ, プレスビカシスにおける音素の劣化と一致した。
これらのASR由来の混乱から硬化したテストバッテリは診断値を示し, 包括的シミュレーションにおいて, 模擬正常聴取と聴力障害のある聴取者を効果的に区別した。
このASR駆動の手法は、従来の音響測定を補完する客観的、粒度、周波数特異的な聴力評価ツールを開発するための有望な道を提供する。
今後の研究は、これらの発見を人間の参加者と検証することに集中し、診断精度を高めるための高度なAIモデルの統合を探求する。
関連論文リスト
- Towards Robust Automated Perceptual Voice Quality Assessment with Speech Foundation Models [39.31175048498422]
VOQANetは、生音声から高レベル音響および韻律情報を抽出するための注意機構を備えたディープラーニングフレームワークである。
VOQANet+は、ジッタ、シマー、ハーモニックス・トゥ・ノイズ比(HNR)などの手作り音響特性とSFMの埋め込みをハイブリッド表現に統合する。
その結果、特に患者レベルでは、文ベースの入力は母音ベースの入力よりも優れていた。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato [68.97335984455059]
本研究の目的は,ALS患者の自動検出のための持続母音発声テストの有用性を検証することである。
そこで我々は,音声信号から測定値の計算に必要な基本周期への分離手順の強化を提案した。
論文 参考訳(メタデータ) (2020-03-24T12:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。