論文の概要: Deep Feature Learning for Medical Acoustics
- arxiv url: http://arxiv.org/abs/2208.03084v1
- Date: Fri, 5 Aug 2022 10:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 13:15:22.954501
- Title: Deep Feature Learning for Medical Acoustics
- Title(参考訳): 医療音響の深層的特徴学習
- Authors: Alessandro Maria Poir\`e, Federico Simonetta, Stavros Ntalampiras
- Abstract要約: 本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
- 参考スコア(独自算出の注目度): 78.56998585396421
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The purpose of this paper is to compare different learnable frontends in
medical acoustics tasks. A framework has been implemented to classify human
respiratory sounds and heartbeats in two categories, i.e. healthy or affected
by pathologies. After obtaining two suitable datasets, we proceeded to classify
the sounds using two learnable state-of-art frontends -- LEAF and nnAudio --
plus a non-learnable baseline frontend, i.e. Mel-filterbanks. The computed
features are then fed into two different CNN models, namely VGG16 and
EfficientNet. The frontends are carefully benchmarked in terms of the number of
parameters, computational resources, and effectiveness.
This work demonstrates how the integration of learnable frontends in neural
audio classification systems may improve performance, especially in the field
of medical acoustics. However, the usage of such frameworks makes the needed
amount of data even larger. Consequently, they are useful if the amount of data
available for training is adequately large to assist the feature learning
process.
- Abstract(参考訳): 本研究の目的は,医療音響タスクにおける学習可能なフロントエンドの比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
2つの適切なデータセットを得た後、leafとnnaudioという2つの学習可能な最先端と、学習不能なベースラインフロントエンド、すなわちmel-filterbanksを使って音を分類しました。
計算された機能は、VGG16とEfficientNetという2つの異なるCNNモデルに入力される。
フロントエンドはパラメータの数、計算資源、有効性の点で慎重にベンチマークされる。
本研究は、神経音響分類システムにおける学習可能なフロントエンドの統合が、特に医療音響の分野で、パフォーマンスをいかに改善するかを示す。
しかし、そのようなフレームワークを使用すると、必要なデータ量がさらに大きくなる。
したがって, 特徴学習プロセスを支援するために, トレーニングに利用できるデータ量が十分に大きい場合に有用である。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.1455937444848385]
本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。
K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。
提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - AFEN: Respiratory Disease Classification using Ensemble Learning [2.524195881002773]
本稿では、畳み込みニューラルネットワーク(CNN)とXGBoostを利用するモデルであるAFEN(Audio Feature Learning)を提案する。
我々は、データの健全な属性を提供し、正確な分類を可能にする、巧妙に選択されたオーディオ特徴の組み合わせを使用する。
AFENがPrecisionとRecallをメトリクスとして利用し、トレーニング時間を60%削減し、新たな最先端技術の設定を実証的に検証した。
論文 参考訳(メタデータ) (2024-05-08T23:50:54Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z) - Automatic Analysis of the Emotional Content of Speech in Daylong
Child-Centered Recordings from a Neonatal Intensive Care Unit [3.7373314439051106]
フィンランドとエストニアの2つの病院から、幼児の音声環境から毎日何百時間もの録音が収集された。
本稿では、当初未発表の大規模実世界の音声データセットを導入し、フィンランドのサブセットを対象とした機能的SERシステムの開発について述べる。
最適性能モデルは73.4%の非重み付き平均リコールの分類性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-14T11:17:52Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。