論文の概要: Robust and Interpretable Temporal Convolution Network for Event
Detection in Lung Sound Recordings
- arxiv url: http://arxiv.org/abs/2106.15835v1
- Date: Wed, 30 Jun 2021 06:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:15:53.831108
- Title: Robust and Interpretable Temporal Convolution Network for Event
Detection in Lung Sound Recordings
- Title(参考訳): 肺音響記録における事象検出のためのロバストかつ解釈可能な時間畳み込みネットワーク
- Authors: Tharindu Fernando, Sridha Sridharan, Simon Denman, Houman
Ghaemmaghami, Clinton Fookes
- Abstract要約: 肺音事象検出のための軽量で頑健で完全に解釈可能なフレームワークを提案する。
マルチブランチTCNアーキテクチャを使用し、これらのブランチから得られる特徴を組み合わせるために、新しい融合戦略を利用する。
異なる特徴融合戦略を解析した結果,提案手法は非表現的特徴の抑制に繋がることがわかった。
- 参考スコア(独自算出の注目度): 37.0780415938284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel framework for lung sound event detection,
segmenting continuous lung sound recordings into discrete events and performing
recognition on each event. Exploiting the lightweight nature of Temporal
Convolution Networks (TCNs) and their superior results compared to their
recurrent counterparts, we propose a lightweight, yet robust, and completely
interpretable framework for lung sound event detection. We propose the use of a
multi-branch TCN architecture and exploit a novel fusion strategy to combine
the resultant features from these branches. This not only allows the network to
retain the most salient information across different temporal granularities and
disregards irrelevant information, but also allows our network to process
recordings of arbitrary length. Results: The proposed method is evaluated on
multiple public and in-house benchmarks of irregular and noisy recordings of
the respiratory auscultation process for the identification of numerous
auscultation events including inhalation, exhalation, crackles, wheeze,
stridor, and rhonchi. We exceed the state-of-the-art results in all
evaluations. Furthermore, we empirically analyse the effect of the proposed
multi-branch TCN architecture and the feature fusion strategy and provide
quantitative and qualitative evaluations to illustrate their efficiency.
Moreover, we provide an end-to-end model interpretation pipeline that
interprets the operations of all the components of the proposed framework. Our
analysis of different feature fusion strategies shows that the proposed feature
concatenation method leads to better suppression of non-informative features,
which drastically reduces the classifier overhead resulting in a robust
lightweight network.The lightweight nature of our model allows it to be
deployed in end-user devices such as smartphones, and it has the ability to
generate predictions in real-time.
- Abstract(参考訳): 本稿では, 連続的肺音記録を離散的イベントに分割し, 各イベントの認識を行う, 肺音イベント検出のための新しい枠組みを提案する。
時間的畳み込みネットワーク(tcns)の軽量な性質と,それよりも優れた結果を活用することで,肺音イベント検出のための軽量でロバストで完全に解釈可能な枠組みを提案する。
マルチブランチTCNアーキテクチャの利用を提案し、これらのブランチから得られる特徴を組み合わせるために、新しい融合戦略を利用する。
これにより、ネットワークは異なる時間的粒度の最も健全な情報を保持でき、無関係な情報を無視できるだけでなく、ネットワークが任意の長さの録音を処理できる。
結果: 本手法は, 吸入, 呼気, 呼気, ひび割れ, ホイーズ, ストリドール, ロンチなど, 多数の聴診イベントを同定するために, 呼吸聴診過程の不規則な記録とノイズ記録を, 公共および社内のベンチマークで評価した。
我々はあらゆる評価において最先端の結果を上回る。
さらに,提案するマルチブランチTCNアーキテクチャと機能融合戦略の効果を実証的に分析し,その効果を定量的かつ定性的に評価する。
さらに,提案フレームワークのすべてのコンポーネントの操作を解釈するエンドツーエンドモデル解釈パイプラインを提供する。
異なる特徴融合戦略を解析した結果,提案手法は非表現的特徴の抑制に寄与し,分類器のオーバーヘッドを大幅に削減し,堅牢な軽量ネットワークを実現することが示唆された。
関連論文リスト
- Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - ORF-Net: Deep Omni-supervised Rib Fracture Detection from Chest CT Scans [47.7670302148812]
放射線科医は、スライス・バイ・スライス・バイ・スライス(スライス・バイ・スライス・スライス・バイ・スライス・バイ・スライス・バイ・スライス)に基づいてリブ骨折の調査と注釈を行う必要がある。
そこで本研究では,複数種類の注釈付きデータを利用するOmni教師付きオブジェクト検出ネットワークを提案する。
提案手法は、他の最先端手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-07-05T07:06:57Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。