論文の概要: An Inception-Residual-Based Architecture with Multi-Objective Loss for
Detecting Respiratory Anomalies
- arxiv url: http://arxiv.org/abs/2303.04104v2
- Date: Mon, 19 Jun 2023 21:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 03:31:21.792723
- Title: An Inception-Residual-Based Architecture with Multi-Objective Loss for
Detecting Respiratory Anomalies
- Title(参考訳): 呼吸異常検出のための多目的損失型インセプション・レジデンシャル・アーキテクチャ
- Authors: Dat Ngo, Lam Pham, Huy Phan, Minh Tran, Delaram Jarchi, Sefki Kolozali
- Abstract要約: 本稿では,呼吸音の録音から異常を検出するための深層学習システムを提案する。
本システムでは,呼吸異常を分類するために,インセプションをベースとしたバックボーンモデルとマルチヘッドアテンションと多目的損失を統合した。
- 参考スコア(独自算出の注目度): 10.29057783664056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a deep learning system applied for detecting anomalies
from respiratory sound recordings. Initially, our system begins with audio
feature extraction using Gammatone and Continuous Wavelet transformation. This
step aims to transform the respiratory sound input into a two-dimensional
spectrogram where both spectral and temporal features are presented. Then, our
proposed system integrates Inception-residual-based backbone models combined
with multi-head attention and multi-objective loss to classify respiratory
anomalies. Instead of applying a simple concatenation approach by combining
results from various spectrograms, we propose a Linear combination, which has
the ability to regulate equally the contribution of each individual spectrogram
throughout the training process. To evaluate the performance, we conducted
experiments over the benchmark dataset of SPRSound (The Open-Source SJTU
Paediatric Respiratory Sound) proposed by the IEEE BioCAS 2022 challenge. As
regards the Score computed by an average between the average score and harmonic
score, our proposed system gained significant improvements of 9.7%, 15.8%,
17.8%, and 16.1% in Task 1-1, Task 1-2, Task 2-1, and Task 2-2, respectively,
compared to the challenge baseline system. Notably, we achieved the Top-1
performance in Task 2-1 and Task 2-2 with the highest Score of 74.5% and 53.9%,
respectively.
- Abstract(参考訳): 本稿では,呼吸音記録から異常を検出するための深層学習システムを提案する。
まず,ガンマトーンと連続ウェーブレット変換を用いた音声特徴抽出からシステムを構築する。
このステップは、呼吸音入力をスペクトルと時間の両方の特徴が提示される2次元分光図に変換することを目的としている。
そこで本システムでは,マルチヘッドアテンションと多目的損失を併用して呼吸異常の分類を行う。
様々なスペクトログラムの結果を組み合わせることで、単純な結合アプローチを適用する代わりに、トレーニングプロセスを通して個々のスペクトログラムの貢献を等しく制御できる線形結合を提案する。
この性能評価のために,ieee biocas 2022チャレンジで提案されたsprsound(sjtu paediatric respiratory sound)のベンチマークデータセットについて実験を行った。
平均スコアとハーモニックスコアの間で算出したスコアについて,提案手法は,課題ベースラインシステムと比較して,タスク1-1,タスク1-2,タスク2-1,タスク2-2において,それぞれ9.7%,15.8%,17.8%,16.1%の大幅な改善が得られた。
特に第2-1タスクと第2-2タスクでは,最高スコアが74.5%,第53.9%であった。
関連論文リスト
- Emotion Classification from Multi-Channel EEG Signals Using HiSTN: A Hierarchical Graph-based Spatial-Temporal Approach [0.0]
本研究では,感情分類のためのパラメータ係数ネットワークを提案する。
このネットワークには、ボトムアップからさまざまな抽象化レベルで構築されたグラフ階層が組み込まれている。
平均F1スコアは96.82%(原子価)、95.62%(原子価)である。
論文 参考訳(メタデータ) (2024-08-09T12:32:12Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Wav2vec-based Detection and Severity Level Classification of Dysarthria
from Speech [15.150153248025543]
事前訓練したwav2vec 2.0モデルは, 検出および重度分類システムを構築するための特徴抽出器として研究されている。
一般的なUA音声データベースを用いて実験を行った。
論文 参考訳(メタデータ) (2023-09-25T13:00:33Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Deep Learning Framework Applied for Predicting Anomaly of Respiratory
Sounds [11.375037967010224]
本稿では,呼吸周期異常の分類に用いる堅牢な深層学習フレームワークを提案する。
本研究では、2017年度のバイオメディカルヘルスインフォマティクス(ICBHI)ベンチマークデータセットに関する内部会議で実験を行った。
論文 参考訳(メタデータ) (2020-12-26T03:09:36Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - CNN-MoE based framework for classification of respiratory anomalies and
lung disease detection [33.45087488971683]
本稿では,聴取分析のための頑健な深層学習フレームワークを提示し,検討する。
呼吸周期の異常を分類し、呼吸音の記録から病気を検出することを目的としている。
論文 参考訳(メタデータ) (2020-04-04T21:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。