論文の概要: Voice Pathology Detection Using Phonation
- arxiv url: http://arxiv.org/abs/2508.07587v1
- Date: Mon, 11 Aug 2025 03:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.930042
- Title: Voice Pathology Detection Using Phonation
- Title(参考訳): 発声を用いた音声診断
- Authors: Sri Raksha Siva, Nived Suthahar, Prakash Boominathan, Uma Ranjan,
- Abstract要約: 本研究では,音声の病状を検出するための機械学習フレームワークを提案する。
Saarbr"ucken Voice Databaseからの発声データを解析する。
リカレントニューラルネットワーク(RNN)は、サンプルを正常および病理学的カテゴリに分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Voice disorders significantly affect communication and quality of life, requiring an early and accurate diagnosis. Traditional methods like laryngoscopy are invasive, subjective, and often inaccessible. This research proposes a noninvasive, machine learning-based framework for detecting voice pathologies using phonation data. Phonation data from the Saarbr\"ucken Voice Database are analyzed using acoustic features such as Mel Frequency Cepstral Coefficients (MFCCs), chroma features, and Mel spectrograms. Recurrent Neural Networks (RNNs), including LSTM and attention mechanisms, classify samples into normal and pathological categories. Data augmentation techniques, including pitch shifting and Gaussian noise addition, enhance model generalizability, while preprocessing ensures signal quality. Scale-based features, such as H\"older and Hurst exponents, further capture signal irregularities and long-term dependencies. The proposed framework offers a noninvasive, automated diagnostic tool for early detection of voice pathologies, supporting AI-driven healthcare, and improving patient outcomes.
- Abstract(参考訳): 音声障害はコミュニケーションや生活の質に大きな影響を与え、早期かつ正確な診断を必要とする。
喉頭鏡のような伝統的な方法は侵襲的であり、主観的であり、しばしばアクセス不能である。
本研究では,音声データを用いた非侵襲的機械学習に基づく音声診断フレームワークを提案する。
また、Mel Frequency Cepstral Coefficients (MFCC)、クロマ機能、Mel Spectrogramsなどの音響特性を用いて、Saarbr\"ucken Voice Databaseからの発声データを解析した。
LSTMとアテンションメカニズムを含むリカレントニューラルネットワーク(RNN)は、サンプルを正常と病理のカテゴリに分類する。
ピッチシフトやガウス雑音付加などのデータ拡張技術は、事前処理によって信号の品質が保証される一方で、モデルの一般化性を向上する。
H\"older"や"Hurst exponents"といったスケールベースの機能は、さらに信号の不規則性と長期的な依存関係をキャプチャする。
提案するフレームワークは、音声病理の早期発見、AI駆動型医療のサポート、患者の成果改善のための非侵襲的自動診断ツールを提供する。
関連論文リスト
- Advancing Hearing Assessment: An ASR-Based Frequency-Specific Speech Test for Diagnosing Presbycusis [0.0]
従来の音響測定では、聴覚障害が音声理解に与える影響を完全に特徴づけることができない。
本稿では,新しい音声認識(ASR)に基づく周波数固有音声テストの開発とシミュレーション評価について述べる。
論文 参考訳(メタデータ) (2025-05-28T11:06:22Z) - Structure-Accurate Medical Image Translation via Dynamic Frequency Balance and Knowledge Guidance [60.33892654669606]
拡散モデルは,必要な医用画像を合成するための強力な戦略である。
既存のアプローチはまだ、高周波情報の過度な適合による解剖学的構造歪みの問題に悩まされている。
本稿では,動的周波数バランスと知識指導に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T05:48:13Z) - Comparative Analysis of Mel-Frequency Cepstral Coefficients and Wavelet Based Audio Signal Processing for Emotion Detection and Mental Health Assessment in Spoken Speech [0.0]
本研究では、ウェーブレット抽出機能に対する畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)モデルの応用と、Mel- frequency Cepstral Coefficients(MFCC)による音声音声からの感情検出について検討する。
データ強化技術,特徴抽出,正規化,モデルトレーニングを行い,感情状態の分類においてモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-12T22:55:11Z) - Voice Disorder Analysis: a Transformer-based Approach [10.003909936239742]
本稿では,生音声信号を直接処理するトランスフォーマーを用いた新しいソリューションを提案する。
文読解や持続母音の発声など,多くの記録タイプを同時に検討する。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示した。
論文 参考訳(メタデータ) (2024-06-20T19:29:04Z) - Non-destructive Fault Diagnosis of Electronic Interconnects by Learning Signal Patterns of Reflection Coefficient in the Frequency Domain [1.8843687952462742]
本稿では,早期故障検出と相互接続欠陥の正確な診断のための新しい非破壊的手法を提案する。
提案手法は, 周波数範囲にわたる係数反射の信号パターンを利用して, 根本原因同定と重大度評価の両立を可能にする。
実験結果から,本手法は断層検出および診断に有効であり,実世界の産業応用に拡張できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-20T10:51:21Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Deep Metric Learning with Locality Sensitive Angular Loss for
Self-Correcting Source Separation of Neural Spiking Signals [77.34726150561087]
本稿では, 深層学習に基づく手法を提案し, 自動掃除とロバスト分離フィルタの必要性に対処する。
本手法は, ソース分離した高密度表面筋電図記録に基づいて, 人工的に劣化したラベルセットを用いて検証する。
このアプローチにより、ニューラルネットワークは、信号のラベル付けの不完全な方法を使用して、神経生理学的時系列を正確に復号することができる。
論文 参考訳(メタデータ) (2021-10-13T21:51:56Z) - Heart Sound Classification Considering Additive Noise and Convolutional
Distortion [2.63046959939306]
異常検出のための心臓音の自動解析は、加算雑音とセンサ依存劣化の課題に直面している。
本研究の目的は, 心音に両種類の歪みが存在する場合に, 心的異常検出問題に対処する手法を開発することである。
提案手法は, 安価な聴診器を用いて, ノイズの多い環境下で, コンピュータ支援型心臓聴診システムを開発するための道を開くものである。
論文 参考訳(メタデータ) (2021-06-03T14:09:04Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato [68.97335984455059]
本研究の目的は,ALS患者の自動検出のための持続母音発声テストの有用性を検証することである。
そこで我々は,音声信号から測定値の計算に必要な基本周期への分離手順の強化を提案した。
論文 参考訳(メタデータ) (2020-03-24T12:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。