論文の概要: Multi-View Spectrogram Transformer for Respiratory Sound Classification
- arxiv url: http://arxiv.org/abs/2311.09655v1
- Date: Thu, 16 Nov 2023 08:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:46:34.214646
- Title: Multi-View Spectrogram Transformer for Respiratory Sound Classification
- Title(参考訳): 呼吸音分類のためのマルチビュースペクトログラム変換器
- Authors: Wentao He, Yuchen Yan, Jianfeng Ren, Ruibin Bai, Xudong Jiang
- Abstract要約: 視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。
ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 34.70232525173757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have been applied to audio spectrograms for respiratory
sound classification. Existing models often treat the spectrogram as a
synthetic image while overlooking its physical characteristics. In this paper,
a Multi-View Spectrogram Transformer (MVST) is proposed to embed different
views of time-frequency characteristics into the vision transformer.
Specifically, the proposed MVST splits the mel-spectrogram into different sized
patches, representing the multi-view acoustic elements of a respiratory sound.
These patches and positional embeddings are then fed into transformer encoders
to extract the attentional information among patches through a self-attention
mechanism. Finally, a gated fusion scheme is designed to automatically weigh
the multi-view features to highlight the best one in a specific scenario.
Experimental results on the ICBHI dataset demonstrate that the proposed MVST
significantly outperforms state-of-the-art methods for classifying respiratory
sounds.
- Abstract(参考訳): 深層ニューラルネットワークは呼吸音分類のための音声スペクトログラムに適用されている。
既存のモデルは、しばしば分光図を合成画像として扱い、物理特性を見下ろしている。
本稿では、視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。
提案したMVSTは, メリースペクトルを異なる大きさのパッチに分割し, 呼吸音の多視点音響特性を表す。
これらのパッチと位置埋め込みをトランスフォーマーエンコーダに入力し、自己保持機構を通じてパッチ間の注意情報を抽出する。
最後に、ゲート融合スキームは、特定のシナリオで最良のものを強調するために、マルチビュー機能を自動的に評価するように設計されている。
ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法に優れていた。
関連論文リスト
- Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
デジタル画像から抽出したスペクトルおよびリズムの特徴を音響的分類に用いることができる。
メルスケール分光図, メル周波数ケプストラム係数 (MFCC) などのスペクトル・リズム特性の異なる表現について検討した。
論文 参考訳(メタデータ) (2024-10-09T14:21:59Z) - Convolutional Variational Autoencoders for Spectrogram Compression in Automatic Speech Recognition [0.0]
本稿では、畳み込み変分オートエンコーダ(VAE)に基づく圧縮スペクトログラム表現の代替手法を提案する。
畳み込みVAEモデルは、13次元の埋め込みから短いオーディオスペクトログラム(25ms)の断片を再構成するために、LibriSpeechデータセットのサブサンプルで訓練された。
トレーニングされた40次元(300ms)の埋め込みモデルは、GoogleSpeechCommandsデータセットで音声コマンドのコーパスを生成するために使用された。
論文 参考訳(メタデータ) (2024-10-03T15:04:27Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral
Reconstruction [148.26195175240923]
効率的なスペクトル再構成のためのマルチステージスペクトル変換器(MST++)を提案する。
NTIRE 2022 Spectral Reconstruction Challengeでは、私たちのアプローチが優勝しました。
論文 参考訳(メタデータ) (2022-04-17T02:39:32Z) - Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image
Reconstruction [127.20208645280438]
ハイパースペクトル画像(HSI)再構成は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。
スペクトル間相互作用のモデル化は、HSI再構成に有用である。
Mask-guided Spectral-wise Transformer (MST) は,HSI再構成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-15T16:59:48Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - CNN-MoE based framework for classification of respiratory anomalies and
lung disease detection [33.45087488971683]
本稿では,聴取分析のための頑健な深層学習フレームワークを提示し,検討する。
呼吸周期の異常を分類し、呼吸音の記録から病気を検出することを目的としている。
論文 参考訳(メタデータ) (2020-04-04T21:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。