論文の概要: Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers
- arxiv url: http://arxiv.org/abs/2512.22564v1
- Date: Sat, 27 Dec 2025 11:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.11486
- Title: Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers
- Title(参考訳): 呼吸音分類のための幾何学的最適化:SAM最適化音響スペクトログラム変換器による感度向上
- Authors: Atakan Işık, Selin Vulga Işık, Ahmet Feridun Işık, Mahşuk Taylan,
- Abstract要約: シャープネス認識最小化(SAM)を用いたAST(Audio Spectrogram Transformer)の拡張フレームワークを提案する。
ICBHI 2017データセットの最先端スコアは68.10%に達し、既存のCNNとハイブリッドベースラインを上回っている。
t-SNEとアテンションマップを用いたさらなる解析により、背景雑音を記憶するのではなく、頑健で差別的な特徴を学習することを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Respiratory sound classification is hindered by the limited size, high noise levels, and severe class imbalance of benchmark datasets like ICBHI 2017. While Transformer-based models offer powerful feature extraction capabilities, they are prone to overfitting and often converge to sharp minima in the loss landscape when trained on such constrained medical data. To address this, we introduce a framework that enhances the Audio Spectrogram Transformer (AST) using Sharpness-Aware Minimization (SAM). Instead of merely minimizing the training loss, our approach optimizes the geometry of the loss surface, guiding the model toward flatter minima that generalize better to unseen patients. We also implement a weighted sampling strategy to handle class imbalance effectively. Our method achieves a state-of-the-art score of 68.10% on the ICBHI 2017 dataset, outperforming existing CNN and hybrid baselines. More importantly, it reaches a sensitivity of 68.31%, a crucial improvement for reliable clinical screening. Further analysis using t-SNE and attention maps confirms that the model learns robust, discriminative features rather than memorizing background noise.
- Abstract(参考訳): 呼吸音の分類は、ICBHI 2017のようなベンチマークデータセットの限られたサイズ、高い騒音レベル、厳しいクラス不均衡によって妨げられている。
Transformerベースのモデルは強力な特徴抽出機能を提供するが、そのような制約された医療データでトレーニングされた場合、過度に適合する傾向があり、ロスランドスケープの鋭いミニマに収束することが多い。
そこで本研究では,Sharpness-Aware Minimization (SAM) を用いたAudio Spectrogram Transformer (AST) を強化するフレームワークを提案する。
トレーニング損失を最小限に抑えるのではなく、損失面の幾何学を最適化し、平らなミニマに向けてモデルを誘導し、目に見えない患者をより一般化する。
また,クラス不均衡を効果的に処理するための重み付きサンプリング戦略を実装した。
ICBHI 2017データセットの最先端スコアは68.10%に達し、既存のCNNとハイブリッドベースラインを上回っている。
さらに重要なことは、68.31%の感度に達し、信頼性の高い臨床スクリーニングにとって重要な改善である。
t-SNEとアテンションマップを用いたさらなる解析により、背景雑音を記憶するのではなく、頑健で差別的な特徴を学習することを確認した。
関連論文リスト
- Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models [45.90037602677841]
本稿では,音声事前学習モデルを利用した頑健なAnomalous Sound Detection (ASD)モデルを提案する。
マシン操作データを用いてこれらのモデルを微調整し、データ拡張戦略としてSpecAugを使用します。
実験では,従来のSOTAモデルと比較して6.48%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-09-11T05:19:38Z) - Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。
本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文 参考訳(メタデータ) (2024-08-16T19:08:27Z) - STAL: Spike Threshold Adaptive Learning Encoder for Classification of Pain-Related Biosignal Data [2.0738462952016232]
本稿では,EmoPainデータセットを用いた慢性腰痛 (CLBP) 分類のためのスパイキングニューラルネットワーク (SNN) の最初の応用について述べる。
本稿では,連続生体信号をスパイク列車に変換する訓練可能なエンコーダであるSpike Threshold Adaptive Learning (STAL)を紹介する。
また,SEMG と IMU データのマルチストリーム処理のためのスパイキングリカレントニューラルネットワーク (SRNN) 分類器のアンサンブルを提案する。
論文 参考訳(メタデータ) (2024-07-11T10:15:52Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - ARHNet: Adaptive Region Harmonization for Lesion-aware Augmentation to
Improve Segmentation Performance [61.04246102067351]
本研究では,合成画像をよりリアルに見せるために,前景調和フレームワーク(ARHNet)を提案する。
実画像と合成画像を用いたセグメンテーション性能の向上に本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-02T10:39:29Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Deep Neural Network for Respiratory Sound Classification in Wearable
Devices Enabled by Patient Specific Model Tuning [2.8935588665357077]
メル・スペクトログラムに基づく呼吸音を分類する深層CNN-RNNモデルを提案する。
また、まず呼吸器患者をスクリーニングし、次いで患者固有の分類モデルを構築する患者特化モデルチューニング戦略を実装した。
The proposed hybrid CNN-RNN model achieves 66.31% on four-class classification of breath cycles for ICBHI'17 scientific challenge respiratory sound database。
論文 参考訳(メタデータ) (2020-04-16T15:42:58Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。