論文の概要: Towards Robust Automated Perceptual Voice Quality Assessment with Deep Learning
- arxiv url: http://arxiv.org/abs/2505.21356v1
- Date: Tue, 27 May 2025 15:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.772563
- Title: Towards Robust Automated Perceptual Voice Quality Assessment with Deep Learning
- Title(参考訳): 深層学習による知覚音声品質評価のロバスト化に向けて
- Authors: Whenty Ariyanti, Kuan-Yu Chen, Sabato Marco Siniscalchi, Hsin-Min Wang, Yu Tsao,
- Abstract要約: 生音声から高レベルの音響情報と韻律情報をキャプチャする注目機構を備えたディープラーニングベースのフレームワークであるVoice Quality Assessment Network (VOQANet)を提案する。
本研究では,シッター,シマー,高調波-雑音比(HNR)などの手作り音響特徴をSFM埋め込みと統合したVOQANet+を提案する。
結果:VOQANetはRMSEとPCCのベースライン法を一貫して上回り,VOQANet+はノイズ条件下でのロバスト性を維持する。
- 参考スコア(独自算出の注目度): 39.31175048498422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: Perceptual voice quality assessment plays a critical role in diagnosing and monitoring voice disorders by providing standardized evaluation of vocal function. Traditionally, this process relies on expert raters utilizing standard scales, such as the Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V) and Grade, Roughness, Breathiness, Asthenia, and Strain (GRBAS). However, these metrics are inherently subjective and susceptible to inter-rater variability, motivating the need for automated and objective assessment methods. Methods: We propose Voice Quality Assessment Network (VOQANet), a deep learning-based framework with an attention mechanism that leverages a Speech Foundation Model (SFM) to capture high-level acoustic and prosodic information from raw speech. To enhance robustness and interpretability, we present VOQANet+, which integrates handcrafted acoustic features such as jitter, shimmer, and harmonics-to-noise ratio (HNR) with SFM embeddings. Results: Sentence-based input yields stronger performance than vowel-based input, especially at the patient level. VOQANet consistently outperforms baseline methods in RMSE and PCC, while VOQANet+ performs even better and maintains robustness under noisy conditions. Conclusion: Combining SFM embeddings with domain-informed acoustic features improves interpretability and resilience. Significance: VOQANet+ shows strong potential for deployment in real-world and telehealth settings, addressing the limitations of subjective perceptual assessments with an interpretable and noise-resilient solution.
- Abstract(参考訳): 目的: 声質評価は, 音声機能の標準化された評価を提供することにより, 音声障害の診断・モニタリングにおいて重要な役割を担っている。
伝統的に、このプロセスは、Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V) や Grade, Roughness, Breathiness, Asthenia, Strain (GRBAS) などの標準尺度を利用する専門家のレーダに依存している。
しかしながら、これらの指標は本質的に主観的であり、ラッター間変動の影響を受けやすく、自動的および客観的な評価方法の必要性を動機付けている。
方法: 音声基礎モデル(SFM)を活用し, 生音声から高レベルな音響・韻律情報を取得する深層学習型フレームワークVOQANetを提案する。
頑健性と解釈性を高めるため,シッター,シマー,高調波-雑音比(HNR)などの手作り音響特徴をSFM埋め込みと統合したVOQANet+を提案する。
結果: 文ベース入力は母音ベース入力よりも高い性能を示し, 特に患者レベルでは高い性能を示した。
VOQANetはRMSEとPCCのベースライン法を一貫して上回り、VOQANet+はノイズの多い条件下でさらに性能が良く、堅牢性を維持している。
結論: SFM埋め込みとドメインインフォームド音響特徴を組み合わせることで、解釈性とレジリエンスが向上する。
意義:VOQANet+は現実世界や遠隔医療環境での展開の可能性を強く示しており、解釈可能でノイズ耐性のあるソリューションによる主観的知覚評価の限界に対処している。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。