論文の概要: Interpretable Acoustic Representation Learning on Breathing and Speech
Signals for COVID-19 Detection
- arxiv url: http://arxiv.org/abs/2206.13365v1
- Date: Mon, 27 Jun 2022 15:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 18:59:46.224349
- Title: Interpretable Acoustic Representation Learning on Breathing and Speech
Signals for COVID-19 Detection
- Title(参考訳): 新型コロナウイルス検出のための呼吸・音声信号の解釈可能な音響表現学習
- Authors: Debottam Dutta, Debarpan Bhattacharya, Sriram Ganapathy, Amir H.
Poorjam, Deepak Mittal, Maneesh Singh
- Abstract要約: 本稿では,新型コロナウイルス検出作業における音声信号の表現学習のアプローチについて述べる。
生音声サンプルは、コサイン変調ガウス関数としてパラメータ化される1次元畳み込みフィルタのバンクで処理される。
フィルタされた出力は、プールされ、ログ圧縮され、自己アテンションベースの関連重み付け機構で使用される。
- 参考スコア(独自算出の注目度): 37.01066509527848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe an approach for representation learning of audio
signals for the task of COVID-19 detection. The raw audio samples are processed
with a bank of 1-D convolutional filters that are parameterized as cosine
modulated Gaussian functions. The choice of these kernels allows the
interpretation of the filterbanks as smooth band-pass filters. The filtered
outputs are pooled, log-compressed and used in a self-attention based relevance
weighting mechanism. The relevance weighting emphasizes the key regions of the
time-frequency decomposition that are important for the downstream task. The
subsequent layers of the model consist of a recurrent architecture and the
models are trained for a COVID-19 detection task. In our experiments on the
Coswara data set, we show that the proposed model achieves significant
performance improvements over the baseline system as well as other
representation learning approaches. Further, the approach proposed is shown to
be uniformly applicable for speech and breathing signals and for transfer
learning from a larger data set.
- Abstract(参考訳): 本稿では,covid-19検出タスクにおける音声信号表現学習のアプローチについて述べる。
生音声サンプルは、コサイン変調ガウス関数としてパラメータ化される1次元畳み込みフィルタのバンクで処理される。
これらのカーネルの選択により、フィルタバンクをスムーズなバンドパスフィルタとして解釈することができる。
フィルタされた出力はプールされ、ログ圧縮され、自己アテンションに基づく関連性重み付け機構で使用される。
関連度重み付けは、下流タスクにとって重要な時間周波数分解の重要な領域を強調する。
モデルの次のレイヤはリカレントアーキテクチャで構成され、モデルはcovid-19検出タスクのためにトレーニングされます。
筆者らは,coswaraデータセットを用いた実験において,提案モデルがベースラインシステムや表現学習手法よりも大幅に性能が向上することを示す。
さらに,提案手法は,発話・呼吸信号やより大きなデータセットからの学習の伝達に一様に適用できることを示した。
関連論文リスト
- Comparative Analysis of the wav2vec 2.0 Feature Extractor [42.18541127866435]
本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
論文 参考訳(メタデータ) (2023-08-08T14:29:35Z) - Content Adaptive Front End For Audio Signal Processing [2.8935588665357077]
音声信号処理のための学習可能なコンテンツ適応フロントエンドを提案する。
我々は、各音声信号を畳み込みフィルタのバンクに通し、それぞれが固定次元ベクトルを与える。
論文 参考訳(メタデータ) (2023-03-18T16:09:10Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。