論文の概要: RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound Classification
- arxiv url: http://arxiv.org/abs/2405.02996v1
- Date: Sun, 5 May 2024 16:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 15:33:57.861395
- Title: RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound Classification
- Title(参考訳): RepAugment: 呼吸音分類のための入力非依存表現レベル拡張
- Authors: June-Woo Kim, Miika Toikkanen, Sangmin Bae, Minseok Kim, Ho-Young Jung,
- Abstract要約: 本稿では,プレトレーニング音声モデルの呼吸音分類への応用について検討する。
音声と肺の音響サンプルの間には特徴的ギャップがあり,このギャップを埋めるためには,データ拡張が不可欠である。
入力に依存しない表現レベルの拡張手法であるRepAugmentを提案する。
- 参考スコア(独自算出の注目度): 2.812716452984433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in AI have democratized its deployment as a healthcare assistant. While pretrained models from large-scale visual and audio datasets have demonstrably generalized to this task, surprisingly, no studies have explored pretrained speech models, which, as human-originated sounds, intuitively would share closer resemblance to lung sounds. This paper explores the efficacy of pretrained speech models for respiratory sound classification. We find that there is a characterization gap between speech and lung sound samples, and to bridge this gap, data augmentation is essential. However, the most widely used augmentation technique for audio and speech, SpecAugment, requires 2-dimensional spectrogram format and cannot be applied to models pretrained on speech waveforms. To address this, we propose RepAugment, an input-agnostic representation-level augmentation technique that outperforms SpecAugment, but is also suitable for respiratory sound classification with waveform pretrained models. Experimental results show that our approach outperforms the SpecAugment, demonstrating a substantial improvement in the accuracy of minority disease classes, reaching up to 7.14%.
- Abstract(参考訳): AIの最近の進歩は、医療アシスタントとしてのデプロイメントを民主化している。
大規模な視覚的・音声的データセットからの事前学習されたモデルは、このタスクに明らかに一般化されているが、意外なことに、事前訓練された音声モデルの研究は行われていない。
本稿では,プレトレーニング音声モデルの呼吸音分類への応用について検討する。
音声と肺の音響サンプルの間には特徴的ギャップがあり,このギャップを埋めるためには,データ拡張が不可欠である。
しかし、音声と音声の最も広く使われている拡張手法であるSpecAugmentは、2次元の分光図フォーマットを必要としており、音声波形で事前訓練されたモデルには適用できない。
そこで本研究では,SpecAugmentより優れた入力非依存表現レベルの拡張手法であるRepAugmentを提案する。
実験の結果,本手法はSpecAugmentよりも優れており,マイノリティー・コントラストの精度は7.14%に向上した。
関連論文リスト
- Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking [27.708473070563013]
呼吸器オーディオは幅広い医療応用の予測力を持っているが、現在はまだ探索されていない。
OPERA(OPEn Respiratory Acoustic foundation model Pretraining and benchmarking system)を紹介する。
論文 参考訳(メタデータ) (2024-06-23T16:04:26Z) - Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases [5.810320353233697]
本稿では,呼吸音の認識に適した大規模モデルであるReneを紹介する。
我々の革新的なアプローチは、事前訓練された音声認識モデルを用いて呼吸音を処理している。
我々は,Reneアーキテクチャを用いた実時間呼吸音識別システムを開発した。
論文 参考訳(メタデータ) (2024-05-13T03:00:28Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Adversarial Fine-tuning using Generated Respiratory Sound to Address
Class Imbalance [1.3686993145787067]
本稿では,条件付きニューラルボコーダとして音声拡散モデルを用いて,不均衡な呼吸音データを増やすための簡単なアプローチを提案する。
また, 合成音と実呼吸音の特徴を整合させ, 呼吸音の分類性能を向上させるために, 簡易かつ効果的な対向微調整法を実証した。
論文 参考訳(メタデータ) (2023-11-11T05:02:54Z) - Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on
Respiratory Sound Classification [19.180927437627282]
本稿では,潜在空間における混合表現を識別するために,新規かつ効果的なパッチ・ミクス・コントラスト学習を提案する。
提案手法はICBHIデータセット上での最先端性能を実現し,4.08%の改善により先行先行スコアを上回った。
論文 参考訳(メタデータ) (2023-05-23T13:04:07Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Robust Deep Learning Framework For Predicting Respiratory Anomalies and
Diseases [26.786743524562322]
本稿では,呼吸音の記録から呼吸器疾患を検出するための,堅牢な深層学習フレームワークを提案する。
バックエンドのディープラーニングモデルは、特徴を呼吸器疾患または異常のクラスに分類する。
ICBHIベンチマークを用いて実験を行い, 音の分類能力を評価する。
論文 参考訳(メタデータ) (2020-01-21T15:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。