論文の概要: Improving Deep Learning-based Respiratory Sound Analysis with Frequency Selection and Attention Mechanism
- arxiv url: http://arxiv.org/abs/2507.20052v1
- Date: Sat, 26 Jul 2025 20:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.776973
- Title: Improving Deep Learning-based Respiratory Sound Analysis with Frequency Selection and Attention Mechanism
- Title(参考訳): 周波数選択と注意機構による深層学習に基づく呼吸音解析の改善
- Authors: Nouhaila Fraihi, Ouassim Karrakchou, Mounir Ghogho,
- Abstract要約: 軽量な自己アテンションを効率的なCNNバックボーンに統合するCNN-TSA(CNN-TSA)ネットワークを提案する。
提案手法の中心は周波数帯域選択 (FBS) モジュールで, 雑音域と非変形域を抑える。
また,多様な患者群にまたがるロバスト性を高めるための年齢特化モデルも導入した。
- 参考スコア(独自算出の注目度): 3.1515385358176817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate classification of respiratory sounds requires deep learning models that effectively capture fine-grained acoustic features and long-range temporal dependencies. Convolutional Neural Networks (CNNs) are well-suited for extracting local time-frequency patterns but are limited in modeling global context. In contrast, transformer-based models can capture long-range dependencies, albeit with higher computational demands. To address these limitations, we propose a compact CNN-Temporal Self-Attention (CNN-TSA) network that integrates lightweight self-attention into an efficient CNN backbone. Central to our approach is a Frequency Band Selection (FBS) module that suppresses noisy and non-informative frequency regions, substantially improving accuracy and reducing FLOPs by up to 50%. We also introduce age-specific models to enhance robustness across diverse patient groups. Evaluated on the SPRSound-2022/2023 and ICBHI-2017 lung sound datasets, CNN-TSA with FBS sets new benchmarks on SPRSound and achieves state-of-the-art performance on ICBHI, all with a significantly smaller computational footprint. Furthermore, integrating FBS into an existing transformer baseline yields a new record on ICBHI, confirming FBS as an effective drop-in enhancement. These results demonstrate that our framework enables reliable, real-time respiratory sound analysis suitable for deployment in resource-constrained settings.
- Abstract(参考訳): 呼吸音の正確な分類には、微細な音響特性と長距離時間依存性を効果的に捉える深層学習モデルが必要である。
畳み込みニューラルネットワーク(CNN)は、局所的な時間周波数パターンを抽出するのに適しているが、グローバルコンテキストのモデル化には限られている。
対照的に、トランスフォーマーベースのモデルは、高い計算要求にもかかわらず、長距離依存をキャプチャすることができる。
これらの制約に対処するために,軽量な自己アテンションを効率的なCNNバックボーンに統合する,コンパクトなCNN-テンポラル自己アテンション(CNN-TSA)ネットワークを提案する。
提案手法の中心となるのは周波数帯域選択 (FBS) モジュールで, 雑音や非変形周波数領域を抑え, 精度を大幅に向上し, FLOPを最大50%低減する。
また,多様な患者群にまたがるロバスト性を高めるための年齢特化モデルも導入した。
SPRSound-2022/2023 と ICBHI-2017 の肺音データセットに基づいて評価し、FBS を用いた CNN-TSA は SPRSound に新しいベンチマークを設定し、CBHI の最先端性能を達成し、計算フットプリントが大幅に小さくなった。
さらに、FBSを既存の変圧器ベースラインに統合すると、ICBHI上で新たな記録が得られ、FBSが効果的なドロップインエンハンスメントとして確認される。
これらの結果から,本フレームワークは資源制約された環境下での展開に適した,信頼性の高いリアルタイム呼吸音解析を可能にすることが示唆された。
関連論文リスト
- Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。
可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。
実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-06-24T21:14:59Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - TS-LIF: A Temporal Segment Spiking Neuron Network for Time Series Forecasting [27.91825785119938]
Spiking Neural Networks(SNN)は、時系列予測のためのデータ処理に、有望で生物学的にインスパイアされたアプローチを提供する。
本稿では,デュアルコンパートメントアーキテクチャを特徴とするテンポラルリーキーセグメント統合とファイアモデルを提案する。
実験の結果,TS-LIFは時系列予測において従来のSNNよりも優れていた。
論文 参考訳(メタデータ) (2025-03-07T03:06:21Z) - HADL Framework for Noise Resilient Long-Term Time Series Forecasting [0.7810572107832383]
長期の時系列予測は、金融、経済、エネルギーといった分野において重要である。
拡張されたルックバックウィンドウにおける時間ノイズの影響は未調査であり、しばしばモデル性能と計算効率を劣化させる。
本稿では、離散ウェーブレット変換(DWT)と離散コサイン変換(DCT)を統合することで、これらの課題に対処する新しいフレームワークを提案する。
提案手法は,ノイズの多い入力に対する競合堅牢性を示し,計算複雑性を著しく低減し,多様なベンチマークデータセット間での競合性ないし最先端の予測性能を実現する。
論文 参考訳(メタデータ) (2025-02-14T21:41:42Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Deep Learning-Based Synchronization for Uplink NB-IoT [72.86843435313048]
狭帯域モノのインターネット(NB-IoT)における狭帯域物理ランダムアクセスチャネル(NPRACH)のデバイス検出と到着時刻推定のためのニューラルネットワーク(NN)に基づくアルゴリズムを提案する。
導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。
論文 参考訳(メタデータ) (2022-05-22T12:16:43Z) - Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition [0.0]
一部の哺乳類の聴覚ニューロン系における時間周波数の柔軟性は、認識性能を向上させる。
本稿では,ASR音響モデルにおける音声信号情報の時間的局所化のためのCNNに基づく構造を提案する。
TFCMNNモデルの平均認識スコアは、従来のモデルの平均よりも約1.6%高い。
論文 参考訳(メタデータ) (2021-08-09T05:46:58Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Encoding Frequency Constraints in Preventive Unit Commitment Using Deep
Learning with Region-of-Interest Active Sampling [8.776029771500689]
本稿では,周波数制約単位コミットメント(FCUC)のための汎用データ駆動型フレームワークを提案する。
深層ニューラルネットワーク(dnn)を訓練し、実データや高忠実度シミュレーションデータを用いて周波数応答を予測する。
データ生成フェーズでは、すべての可能な電力注入を考慮し、uflcしきい値に近い周波数nadirの電力注入サンプルを含む領域間アクティブサンプリングを提案する。
論文 参考訳(メタデータ) (2021-02-18T19:04:21Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。