論文の概要: Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations
- arxiv url: http://arxiv.org/abs/2505.21356v3
- Date: Fri, 30 May 2025 11:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.112843
- Title: Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations
- Title(参考訳): 低レベル記述子と基礎モデルによる病的音声のロバストな評価に向けて
- Authors: Whenty Ariyanti, Kuan-Yu Chen, Sabato Marco Siniscalchi, Hsin-Min Wang, Yu Tsao,
- Abstract要約: 本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
- 参考スコア(独自算出の注目度): 39.31175048498422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceptual voice quality assessment is essential for diagnosing and monitoring voice disorders by providing standardized evaluations of vocal function. Traditionally, expert raters use standard scales such as the Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V) and Grade, Roughness, Breathiness, Asthenia, and Strain (GRBAS). However, these metrics are subjective and prone to inter-rater variability, motivating the need for automated, objective assessment methods. This study proposes Voice Quality Assessment Network (VOQANet), a deep learning-based framework with an attention mechanism that leverages a Speech Foundation Model (SFM) to extract high-level acoustic and prosodic information from raw speech. To enhance robustness and interpretability, we also introduce VOQANet+, which integrates low-level speech descriptors such as jitter, shimmer, and harmonics-to-noise ratio (HNR) with SFM embeddings into a hybrid representation. Unlike prior studies focused only on vowel-based phonation (PVQD-A subset) of the Perceptual Voice Quality Dataset (PVQD), we evaluate our models on both vowel-based and sentence-level speech (PVQD-S subset) to improve generalizability. Results show that sentence-based input outperforms vowel-based input, especially at the patient level, underscoring the value of longer utterances for capturing perceptual voice attributes. VOQANet consistently surpasses baseline methods in root mean squared error (RMSE) and Pearson correlation coefficient (PCC) across CAPE-V and GRBAS dimensions, with VOQANet+ achieving even better performance. Additional experiments under noisy conditions show that VOQANet+ maintains high prediction accuracy and robustness, supporting its potential for real-world and telehealth deployment.
- Abstract(参考訳): 声質評価は,音声機能の標準化された評価を提供することにより,音声障害の診断・モニタリングに不可欠である。
伝統的に、専門家ラテンダーは、Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V) や Grade, Roughness, Breathiness, Asthenia, Strain (GRBAS) などの標準尺度を使用する。
しかしながら、これらの指標は主観的であり、ラッター間変動の傾向が強く、自動化された客観的評価手法の必要性を動機付けている。
本研究では,音声基礎モデル(SFM)を利用して音声から高レベルな音声・韻律情報を抽出する,深層学習に基づく枠組みであるVoice Quality Assessment Network (VOQANet)を提案する。
また、ロバスト性と解釈可能性を高めるために、jitter, shimmer, harmonics-to-noise ratio (HNR)のような低レベル音声記述子とSFMをハイブリッド表現に統合するVOQANet+を導入する。
知覚音声品質データセット(PVQD)の母音ベースの音韻化(PVQD-Aサブセット)のみに焦点を当てた従来の研究とは異なり、母音ベースの音声と文レベルの音声(PVQD-Sサブセット)の両方でモデルを評価し、一般化性を向上させる。
その結果, 文による入力は, 特に患者レベルでは母音による入力よりも優れており, 知覚的音声特性を捉えた長い発話の価値が強調されることがわかった。
VOQANetは、根平均二乗誤差(RMSE)とピアソン相関係数(PCC)をCAPE-VおよびGRBAS次元で一貫して上回り、VOQANet+はより優れた性能を発揮する。
ノイズのある条件下でのさらなる実験により、VOQANet+は高い予測精度とロバスト性を維持し、現実世界と遠隔医療の展開の可能性を支持することが示されている。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。