論文の概要: Improving snore detection under limited dataset through harmonic/percussive source separation and convolutional neural networks
- arxiv url: http://arxiv.org/abs/2410.23796v1
- Date: Thu, 31 Oct 2024 10:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:59:41.298634
- Title: Improving snore detection under limited dataset through harmonic/percussive source separation and convolutional neural networks
- Title(参考訳): ハーモニック/パーカッシブ音源分離と畳み込みニューラルネットワークによる限られたデータセット下でのスノア検出の改善
- Authors: F. D. Gonzalez-Martinez, J. J. Carabias-Orti, F. J. Canadas-Quesada, N. Ruiz-Reyes, D. Martinez-Munoz, S. Garcia-Galan,
- Abstract要約: Snoringは閉塞性睡眠時無呼吸症候群(OSAS)患者によく見られる音響バイオマーカーである
入力音の高調波成分を解析し,非遮音音とモノラル音を区別する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Snoring, an acoustic biomarker commonly observed in individuals with Obstructive Sleep Apnoea Syndrome (OSAS), holds significant potential for diagnosing and monitoring this recognized clinical disorder. Irrespective of snoring types, most snoring instances exhibit identifiable harmonic patterns manifested through distinctive energy distributions over time. In this work, we propose a novel method to differentiate monaural snoring from non-snoring sounds by analyzing the harmonic content of the input sound using harmonic/percussive sound source separation (HPSS). The resulting feature, based on the harmonic spectrogram from HPSS, is employed as input data for conventional neural network architectures, aiming to enhance snoring detection performance even under a limited data learning framework. To evaluate the performance of our proposal, we studied two different scenarios: 1) using a large dataset of snoring and interfering sounds, and 2) using a reduced training set composed of around 1% of the data material. In the former scenario, the proposed HPSS-based feature provides competitive results compared to other input features from the literature. However, the key advantage of the proposed method lies in the superior performance of the harmonic spectrogram derived from HPSS in a limited data learning context. In this particular scenario, using the proposed harmonic feature significantly enhances the performance of all the studied architectures in comparison to the classical input features documented in the existing literature. This finding clearly demonstrates that incorporating harmonic content enables more reliable learning of the essential time-frequency characteristics that are prevalent in most snoring sounds, even in scenarios where the amount of training data is limited.
- Abstract(参考訳): 閉塞性睡眠時無呼吸症候群(OSAS)の患者でよく見られる音響バイオマーカーであるSnoringは、この認識された臨床疾患の診断とモニタリングに有意な可能性を秘めている。
いびきのタイプを無視すると、ほとんどのいびきのインスタンスは、時間とともに独特のエネルギー分布を通して現れる識別可能な調和パターンを示す。
本研究では,高調波/パーカッシブ音源分離 (HPSS) を用いて入力音の高調波成分を解析することにより,単音節音と非遮音音を区別する新しい手法を提案する。
結果として得られた特徴はHPSSのハーモニック・スペクトログラムに基づいており、従来のニューラルネットワークアーキテクチャの入力データとして使われ、限られたデータ学習フレームワークの下でもスノーリング検出性能を向上させることを目的としている。
提案手法の性能を評価するために,我々は2つのシナリオを検討した。
1)いびき音と干渉音の大規模なデータセットを用いて,
2)データ資料の約1%からなる縮小トレーニングセットを使用すること。
前者のシナリオでは、提案したHPSSベースの機能は、文献の他の入力機能と比較して競合する結果をもたらす。
しかし,提案手法の主な利点は,HPSSから派生した高調波スペクトルの限られたデータ学習環境下での性能向上にある。
このシナリオでは、提案したハーモニックな特徴を用いることで、既存の文献に記録されている古典的な入力機能と比較して、研究対象の全てのアーキテクチャの性能を大幅に向上させる。
この結果から,高調波コンテンツの導入により,訓練データの量に制限がある場合においても,ほとんどのスノーリング音でよく見られる重要な時間周波数特性のより信頼性の高い学習が可能になることが示唆された。
関連論文リスト
- A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation [19.384404014248762]
バイノーラル音声強調は、聴覚装置から受信される雑音信号の音質と可聴性を改善することを目的としている。
既存の手法は、ノイズ低減(NR)と空間的手がかり(SCP)の精度と保存の妥協に悩まされることが多い。
本稿では、低周波帯域をフィルタし、残りを保ち、NRに優れた学習ベース軽量複合畳み込みネットワーク(LBCCN)を提案する。
論文 参考訳(メタデータ) (2024-09-19T03:52:50Z) - A Deep Learning Approach to Localizing Multi-level Airway Collapse Based on Snoring Sounds [1.165734481380989]
閉塞型睡眠時無呼吸症候群(OSA)患者における上気道の異なるレベルの刺激音の分類にマシン/ディープ学習の適用について検討した。
39名を対象に,Vellum,Oropharynx,Tongue Base,Epiglottis (VOTE) 分類システムを用いて,聴力評価を行った。
畳み込みニューラルネットワーク(CNN)であるResNet-50は、いびき音の分類において、最高の全体的な性能を示した。
論文 参考訳(メタデータ) (2024-08-28T09:30:20Z) - BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification [0.0]
音声サンプルのメタデータから派生した自由テキスト記述を用いて,事前学習したテキスト・オーディオ・マルチモーダルモデルを微調整する。
提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
論文 参考訳(メタデータ) (2024-06-10T20:49:54Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Heart Sound Classification Considering Additive Noise and Convolutional
Distortion [2.63046959939306]
異常検出のための心臓音の自動解析は、加算雑音とセンサ依存劣化の課題に直面している。
本研究の目的は, 心音に両種類の歪みが存在する場合に, 心的異常検出問題に対処する手法を開発することである。
提案手法は, 安価な聴診器を用いて, ノイズの多い環境下で, コンピュータ支援型心臓聴診システムを開発するための道を開くものである。
論文 参考訳(メタデータ) (2021-06-03T14:09:04Z) - Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy
Loss [49.62291237343537]
本稿では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。
1時間のオープンソース歌唱音声データベースを用いて,PE損失が各種主流系列列列モデルに与える影響について検討する。
論文 参考訳(メタデータ) (2020-10-22T20:14:59Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z) - RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial
Network [75.81653258081435]
GAN(Generative Adversarial Network)は,プライバシ保護の高い現実的なサンプルを生成する能力によって,近年注目を集めている。
しかし、医療記録や財務記録などの機密・私的な訓練例にGANを適用すると、個人の機密・私的な情報を漏らしかねない。
本稿では、学習中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T09:51:02Z) - Sleep Stage Scoring Using Joint Frequency-Temporal and Unsupervised
Features [5.104181562775778]
多くの自動睡眠ステージ認識法が提案されている。
これらの手法のほとんどは、バイタル信号から抽出された時間周波数の特徴を用いる。
近年,教師なし特徴抽出にディープニューラルネットワークを用いるASSR法が提案されている。
本稿では,この2つのアイデアを組み合わせて,時間周波数と教師なしの特徴を同時に利用することを提案する。
論文 参考訳(メタデータ) (2020-04-10T02:00:29Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。