論文の概要: Are you wearing a mask? Improving mask detection from speech using
augmentation by cycle-consistent GANs
- arxiv url: http://arxiv.org/abs/2006.10147v2
- Date: Sat, 25 Jul 2020 21:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 21:28:36.610290
- Title: Are you wearing a mask? Improving mask detection from speech using
augmentation by cycle-consistent GANs
- Title(参考訳): あなたはマスクをかぶっていますか。
周期一貫性GANによる音声からのマスク検出の改善
- Authors: Nicolae-C\u{a}t\u{a}lin Ristea, Radu Tudor Ionescu
- Abstract要約: 本稿では,音声からのマスク検出のための新しいデータ拡張手法を提案する。
提案手法は (i) GAN(Geneversarative Adrial Networks) の学習に基づく。
我々のデータ拡張アプローチは、他のベースラインや最先端の拡張手法よりも優れた結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 24.182791316595576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of detecting whether a person wears a face mask from speech is
useful in modelling speech in forensic investigations, communication between
surgeons or people protecting themselves against infectious diseases such as
COVID-19. In this paper, we propose a novel data augmentation approach for mask
detection from speech. Our approach is based on (i) training Generative
Adversarial Networks (GANs) with cycle-consistency loss to translate unpaired
utterances between two classes (with mask and without mask), and on (ii)
generating new training utterances using the cycle-consistent GANs, assigning
opposite labels to each translated utterance. Original and translated
utterances are converted into spectrograms which are provided as input to a set
of ResNet neural networks with various depths. The networks are combined into
an ensemble through a Support Vector Machines (SVM) classifier. With this
system, we participated in the Mask Sub-Challenge (MSC) of the INTERSPEECH 2020
Computational Paralinguistics Challenge, surpassing the baseline proposed by
the organizers by 2.8%. Our data augmentation technique provided a performance
boost of 0.9% on the private test set. Furthermore, we show that our data
augmentation approach yields better results than other baseline and
state-of-the-art augmentation methods.
- Abstract(参考訳): スピーチからマスクを着用しているかどうかを判断するタスクは、法医学調査、外科医間のコミュニケーション、新型コロナウイルスなどの感染症から身を守る人たちのモデリングに有用である。
本稿では,音声からのマスク検出のための新しいデータ拡張手法を提案する。
私たちのアプローチは
(i)二クラス間(仮面付き及び無マスク型)の非対訳にサイクル・コンシスタンシー損失を伴う生成的反逆ネットワーク(gans)を訓練すること。
二 サイクル一貫性GANを用いて新たな訓練発話を生成し、各翻訳発話に反対ラベルを割り当てる。
オリジナルおよび翻訳された発話は、様々な深さのresnetニューラルネットワークのセットに入力として提供されるスペクトログラムに変換される。
ネットワークはSVM(Support Vector Machines)分類器を介してアンサンブルに結合される。
このシステムでは、InterSPEECH 2020 Computational Paralinguistics ChallengeのMask Sub-Challenge(MSC)に参加し、主催者の提案するベースラインを2.8%上回った。
データ拡張技術は、プライベートテストセットのパフォーマンスを0.9%向上させた。
さらに,我々のデータ拡張手法は,他のベースラインおよび最先端の強化手法よりも優れた結果が得られることを示す。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - SeCGAN: Parallel Conditional Generative Adversarial Networks for Face
Editing via Semantic Consistency [50.04141606856168]
目的のセマンティックマスクを指定せずにセマンティック情報を利用した顔画像の編集を行うラベル誘導型cGANを提案する。
SeCGANには2つのジェネレータと識別器が並列に動作しており、1つはRGBイメージを変換し、もう1つはセマンティックマスク用に訓練されている。
CelebAとCelebA-HQで得られた結果は、我々のアプローチがより正確な属性を持つ顔画像を生成することができることを示している。
論文 参考訳(メタデータ) (2021-11-17T18:54:58Z) - Mask or Non-Mask? Robust Face Mask Detector via Triplet-Consistency
Representation Learning [23.062034116854875]
新型コロナウイルスの感染拡大を遅らせる効果的な方法の1つは、ワクチンや薬品がない場合、マスクを着用することである。
公共の場でのマスクや覆いの使用を義務付けるには、面倒で注意が集中的な人的資源の追加が必要である。
本稿では,フィードフォワード畳み込みニューラルネットワークの効果的な注目を実現するために,コンテキストアテンションモジュールを用いたフェイスマスク検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T16:44:06Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Boosting Masked Face Recognition with Multi-Task ArcFace [0.973681576519524]
新型コロナウイルス(COVID-19)による世界的な健康危機を考えると、口と鼻を覆うマスクは日常の衣服に欠かせないものになっています。
この尺度は、マスクされた顔で機能するよう設計されていないため、最先端の顔認識モデルをロープに乗せている。
完全なトレーニングパイプラインがArcFace作業に基づいて提示され、バックボーンとロス関数のいくつかの修正が行われている。
論文 参考訳(メタデータ) (2021-04-20T10:12:04Z) - Mask Attention Networks: Rethinking and Strengthen Transformer [70.95528238937861]
Transformerは、セルフアテンションネットワーク(SAN)とフィードフォワードネットワーク(FFN)の2つのサブレイヤからなる注目ベースのニューラルネットワークです。
論文 参考訳(メタデータ) (2021-03-25T04:07:44Z) - BinaryCoP: Binary Neural Network-based COVID-19 Face-Mask Wear and
Positioning Predictor on Edge Devices [63.56630165340053]
フェイスマスクは、空気性疾患に対する双方向保護のための医療に効果的な解決策を提供する。
CNNは、顔認識と正しいマスク着用と位置決めの分類に優れたソリューションを提供する。
CNNは、企業ビル、空港、ショッピングエリア、その他の屋内場所への入り口で利用でき、ウイルスの拡散を緩和することができる。
論文 参考訳(メタデータ) (2021-02-06T00:14:06Z) - They are wearing a mask! Identification of Subjects Wearing a Surgical
Mask from their Speech by means of x-vectors and Fisher Vectors [0.0]
InterSPEECH 2020 Computational Paralinguistics Challengeには3つの異なる問題がある。
この課題は、手術用マスクを着用している被験者から録音された音声の分類である。
本研究では,上記の問題に対処するために,2種類の特徴抽出手法を用いる。
論文 参考訳(メタデータ) (2020-08-23T11:27:11Z) - Mask Detection and Breath Monitoring from Speech: on Data Augmentation,
Feature Representation and Modeling [22.170442344804904]
本稿では,Interspeech COMPARE Challenge 2020におけるMask and Breathing Sub-Challengeについて紹介する。
マスク検出タスクでは,フィルタバンクエネルギー,性別認識機能,話者認識機能を備えた深層畳み込みニューラルネットワークを訓練する。
音声呼吸監視タスクでは,Bi-LSTM構造に基づく異なるボトルネック特徴について検討する。
論文 参考訳(メタデータ) (2020-08-12T08:42:50Z) - Surgical Mask Detection with Convolutional Neural Networks and Data
Augmentations on Spectrograms [8.747840760772268]
人間の声のサンプルにおける手術用マスク検出の2値分類タスクに対するデータ拡張の効果を示す。
結果、ComParEのベースラインのほとんどがパフォーマンスに優れていたことが判明した。
論文 参考訳(メタデータ) (2020-08-11T09:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。