論文の概要: Mask Detection and Breath Monitoring from Speech: on Data Augmentation,
Feature Representation and Modeling
- arxiv url: http://arxiv.org/abs/2008.05175v2
- Date: Fri, 14 Aug 2020 08:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 06:15:35.663976
- Title: Mask Detection and Breath Monitoring from Speech: on Data Augmentation,
Feature Representation and Modeling
- Title(参考訳): 音声からのマスク検出と呼吸監視:データ拡張,特徴表現,モデリングについて
- Authors: Haiwei Wu, Lin Zhang, Lin Yang, Xuyang Wang, Junjie Wang, Dong Zhang,
Ming Li
- Abstract要約: 本稿では,Interspeech COMPARE Challenge 2020におけるMask and Breathing Sub-Challengeについて紹介する。
マスク検出タスクでは,フィルタバンクエネルギー,性別認識機能,話者認識機能を備えた深層畳み込みニューラルネットワークを訓練する。
音声呼吸監視タスクでは,Bi-LSTM構造に基づく異なるボトルネック特徴について検討する。
- 参考スコア(独自算出の注目度): 22.170442344804904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces our approaches for the Mask and Breathing Sub-Challenge
in the Interspeech COMPARE Challenge 2020. For the mask detection task, we
train deep convolutional neural networks with filter-bank energies,
gender-aware features, and speaker-aware features. Support Vector Machines
follows as the back-end classifiers for binary prediction on the extracted deep
embeddings. Several data augmentation schemes are used to increase the quantity
of training data and improve our models' robustness, including speed
perturbation, SpecAugment, and random erasing. For the speech breath monitoring
task, we investigate different bottleneck features based on the Bi-LSTM
structure. Experimental results show that our proposed methods outperform the
baselines and achieve 0.746 PCC and 78.8% UAR on the Breathing and Mask
evaluation set, respectively.
- Abstract(参考訳): 本稿では,Interspeech COMPARE Challenge 2020におけるMask and Breathing Sub-Challengeについて紹介する。
マスク検出タスクでは,フィルタバンクエネルギー,性別認識機能,話者認識機能を備えた深層畳み込みニューラルネットワークを訓練する。
Support Vector Machinesは、抽出したディープ埋め込みのバイナリ予測のためのバックエンド分類器として従う。
トレーニングデータの量を増やし、速度摂動、SpecAugment、ランダム消去など、モデルの堅牢性を改善するために、いくつかのデータ拡張スキームが使用されている。
音声呼吸監視タスクでは,Bi-LSTM構造に基づく異なるボトルネック特徴について検討する。
実験の結果,提案手法はベースラインよりも優れ,Breathing と Mask の評価セットでそれぞれ 0.746 PCC と 78.8% UAR を達成した。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - MaskCycleGAN-based Whisper to Normal Speech Conversion [0.0]
本稿では,通常の音声への変換のためのMaskCycleGANアプローチを提案する。
マスクパラメータをチューニングし,音声活動検出器で信号の事前処理を行うことで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-27T06:07:18Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。
本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。
AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文 参考訳(メタデータ) (2022-11-16T18:59:48Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Surgical Mask Detection with Convolutional Neural Networks and Data
Augmentations on Spectrograms [8.747840760772268]
人間の声のサンプルにおける手術用マスク検出の2値分類タスクに対するデータ拡張の効果を示す。
結果、ComParEのベースラインのほとんどがパフォーマンスに優れていたことが判明した。
論文 参考訳(メタデータ) (2020-08-11T09:02:47Z) - Face Anti-Spoofing with Human Material Perception [76.4844593082362]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
我々は、顔の反偽造を物質認識問題として言い換え、それを古典的な人間の物質知覚と組み合わせる。
本稿では,本質的な素材に基づくパターンをキャプチャ可能なバイラテラル畳み込みネットワーク(BCN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T18:25:53Z) - Are you wearing a mask? Improving mask detection from speech using
augmentation by cycle-consistent GANs [24.182791316595576]
本稿では,音声からのマスク検出のための新しいデータ拡張手法を提案する。
提案手法は (i) GAN(Geneversarative Adrial Networks) の学習に基づく。
我々のデータ拡張アプローチは、他のベースラインや最先端の拡張手法よりも優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-17T20:46:50Z) - CNN-MoE based framework for classification of respiratory anomalies and
lung disease detection [33.45087488971683]
本稿では,聴取分析のための頑健な深層学習フレームワークを提示し,検討する。
呼吸周期の異常を分類し、呼吸音の記録から病気を検出することを目的としている。
論文 参考訳(メタデータ) (2020-04-04T21:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。