論文の概要: Synthetic Data Augmentation for Medical Audio Classification: A Preliminary Evaluation
- arxiv url: http://arxiv.org/abs/2602.02955v1
- Date: Tue, 03 Feb 2026 00:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.159981
- Title: Synthetic Data Augmentation for Medical Audio Classification: A Preliminary Evaluation
- Title(参考訳): 医用オーディオ分類のための合成データ拡張 : 予備的評価
- Authors: David McShannon, Anthony Mella, Nicholas Dietrich,
- Abstract要約: 医療オーディオの分類は、低信号対雑音比、微妙な識別特性、およびクラス内変動が原因で依然として困難である。
これらの制約を緩和するための潜在的戦略として、合成データ拡張が提案されている。
本研究では, 基線深部畳み込みニューラルネットワークを用いて, 適度に不均衡なデータセットをトレーニングし, 合成増幅が呼吸音の分類に及ぼす影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical audio classification remains challenging due to low signal-to-noise ratios, subtle discriminative features, and substantial intra-class variability, often compounded by class imbalance and limited training data. Synthetic data augmentation has been proposed as a potential strategy to mitigate these constraints; however, prior studies report inconsistent methodological approaches and mixed empirical results. In this preliminary study, we explore the impact of synthetic augmentation on respiratory sound classification using a baseline deep convolutional neural network trained on a moderately imbalanced dataset (73%:27%). Three generative augmentation strategies (variational autoencoders, generative adversarial networks, and diffusion models) were assessed under controlled experimental conditions. The baseline model without augmentation achieved an F1-score of 0.645. Across individual augmentation strategies, performance gains were not observed, with several configurations demonstrating neutral or degraded classification performance. Only an ensemble of augmented models yielded a modest improvement in F1-score (0.664). These findings suggest that, for medical audio classification, synthetic augmentation may not consistently enhance performance when applied to a standard CNN classifier. Future work should focus on delineating task-specific data characteristics, model-augmentation compatibility, and evaluation frameworks necessary for synthetic augmentation to be effective in medical audio applications.
- Abstract(参考訳): 医学的オーディオ分類は、低信号対雑音比、微妙な識別特性、およびクラス不均衡と限られた訓練データで混在する実質的なクラス内変動のため、依然として困難である。
これらの制約を緩和するための潜在的戦略として、合成データ拡張が提案されているが、先行研究では、一貫性のない方法論的アプローチと混合実験結果が報告されている。
本研究では,中等度不均衡データセット (73%:27%) でトレーニングしたベースライン深部畳み込みニューラルネットワークを用いて, 合成増強が呼吸音の分類に及ぼす影響について検討した。
可変オートエンコーダ, 生成逆数ネットワーク, 拡散モデルという3つの生成増強戦略を, 制御された実験条件下で評価した。
拡張のないベースラインモデルは0.645のF1スコアを達成した。
個別の強化戦略全体では、性能向上は見られず、中性または劣化した分類性能を示すいくつかの構成がある。
拡張モデルのアンサンブルのみがF1スコア(0.664)をわずかに改善した。
以上の結果から,医療用オーディオ分類では,標準CNN分類器に適用した場合,合成増強は一貫して性能を向上しない可能性が示唆された。
今後の課題は,医療用オーディオアプリケーションに有効となるために,タスク固有のデータ特性,モデル拡張互換性,合成拡張に必要な評価フレームワークの整備に焦点をあてるべきである。
関連論文リスト
- Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - Radiomics-Integrated Deep Learning with Hierarchical Loss for Osteosarcoma Histology Classification [5.385285416226677]
本研究は、モデルトレーニングにおける追加入力として放射能特徴を用いることを提案する。
画像から導出されているにもかかわらず、そのようなマルチモーダル入力は分類性能を効果的に向上させることを示した。
このような階層的な損失は、2つのタスク間のトレーニング可能な重み付けにより、クラスごとのパフォーマンスを大幅に改善できることが示される。
論文 参考訳(メタデータ) (2026-01-14T12:09:34Z) - Investigation into respiratory sound classification for an imbalanced data set using hybrid LSTM-KAN architectures [0.0]
本研究では,階級不均衡の緩和に着目した呼吸音分類について検討した。
本稿では,Long Short-Term Memory (LSTM) ネットワークとKolmogorov-Arnold Network (KAN) を組み合わせたハイブリッドディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2026-01-07T05:37:57Z) - Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification [0.0]
ラベル一貫性を持つサンプルを生成するために,クラス条件記述拡散確率モデル(DDPM)を実装した。
私たちは、Mix LossとMix Representationという2つのハイブリッドトレーニング戦略を通じて、実際のデータとの統合を検討します。
本研究は, バイオメディカル画像分類に生成増強を取り入れた場合の, 現実的なデータ生成と堅牢な管理の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-05-28T22:58:50Z) - Structure-Accurate Medical Image Translation via Dynamic Frequency Balance and Knowledge Guidance [60.33892654669606]
拡散モデルは,必要な医用画像を合成するための強力な戦略である。
既存のアプローチはまだ、高周波情報の過度な適合による解剖学的構造歪みの問題に悩まされている。
本稿では,動的周波数バランスと知識指導に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T05:48:13Z) - Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models [45.90037602677841]
本稿では,音声事前学習モデルを利用した頑健なAnomalous Sound Detection (ASD)モデルを提案する。
マシン操作データを用いてこれらのモデルを微調整し、データ拡張戦略としてSpecAugを使用します。
実験では,従来のSOTAモデルと比較して6.48%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-09-11T05:19:38Z) - Systematic Evaluation of Synthetic Data Augmentation for Multi-class NetFlow Traffic [2.5182419298876857]
マルチクラス分類モデルは特定のタイプの攻撃を識別し、より標的的で効果的なインシデント応答を可能にする。
最近の進歩は、生成モデルがデータの増大を補助し、不均衡なデータセットに対して優れたソリューションを提供すると主張することを示唆している。
本実験は,トレーニングデータのバランスをとる再サンプリング手法が,分類性能を確実に向上させるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-08-28T12:44:07Z) - Improved Techniques for the Conditional Generative Augmentation of
Clinical Audio Data [36.45569352490318]
本稿では,学習したデータ分布からメルスペクトルを合成できる条件付き逆方向ニューラルネットワークによる拡張法を提案する。
提案手法は,従来の音質向上手法よりも優れていることを示す。
提案モデルは,臨床オーディオデータの増大における最先端の進歩と,臨床音響センシングシステムの設計におけるデータのボトルネックを改善する。
論文 参考訳(メタデータ) (2022-11-05T10:58:04Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。