論文の概要: They are wearing a mask! Identification of Subjects Wearing a Surgical
Mask from their Speech by means of x-vectors and Fisher Vectors
- arxiv url: http://arxiv.org/abs/2008.10014v1
- Date: Sun, 23 Aug 2020 11:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 03:21:06.173378
- Title: They are wearing a mask! Identification of Subjects Wearing a Surgical
Mask from their Speech by means of x-vectors and Fisher Vectors
- Title(参考訳): 彼らはマスクを着ています!
x-vectorとfisher vectorを用いた音声からの手術用マスク着用者の同定
- Authors: Jos\'e Vicente Egas-L\'opez
- Abstract要約: InterSPEECH 2020 Computational Paralinguistics Challengeには3つの異なる問題がある。
この課題は、手術用マスクを着用している被験者から録音された音声の分類である。
本研究では,上記の問題に対処するために,2種類の特徴抽出手法を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Challenges based on Computational Paralinguistics in the INTERSPEECH
Conference have always had a good reception among the attendees owing to its
competitive academic and research demands. This year, the INTERSPEECH 2020
Computational Paralinguistics Challenge offers three different problems; here,
the Mask Sub-Challenge is of specific interest. This challenge involves the
classification of speech recorded from subjects while wearing a surgical mask.
In this study, to address the above-mentioned problem we employ two different
types of feature extraction methods. The x-vectors embeddings, which is the
current state-of-the-art approach for Speaker Recognition; and the Fisher
Vector (FV), that is a method originally intended for Image Recognition, but
here we utilize it to discriminate utterances. These approaches employ distinct
frame-level representations: MFCC and PLP. Using Support Vector Machines (SVM)
as the classifier, we perform a technical comparison between the performances
of the FV encodings and the x-vector embeddings for this particular
classification task. We find that the Fisher vector encodings provide better
representations of the utterances than the x-vectors do for this specific
dataset. Moreover, we show that a fusion of our best configurations outperforms
all the baseline scores of the Mask Sub-Challenge.
- Abstract(参考訳): InterSPEECH Conferenceにおける計算パラ言語学に基づく課題は、その競争的な学術的・研究的な要求により、参加者の間で常に好意的に受け入れられてきた。
今年、InterSPEECH 2020 Computational Paralinguistics Challengeは3つの異なる問題を提起した。
この課題は、手術用マスクを着用して被写体から録音された音声の分類である。
本研究では,上記の問題に対処するために,2種類の特徴抽出手法を用いる。
話者認識における現在最先端の手法であるxベクトル埋め込みと、元来は画像認識を目的とした手法であるFisher Vector(FV)を用いるが、ここでは発話の識別に利用する。
これらのアプローチは、mfccとplpという異なるフレームレベルの表現を用いる。
サポートベクターマシン(svm)を分類器として使用し,fvエンコーディングの性能と,この特定分類タスクにおけるx-vector組込みの技術的比較を行った。
Fisherベクトル符号化は、この特定のデータセットに対して行うxベクトルよりも発話の表現が優れている。
さらに,最適構成の融合は,Mask Sub-Challengeのすべてのベースラインスコアより優れていることを示す。
関連論文リスト
- Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Masked Face Recognition with Generative-to-Discriminative Representations [29.035270415311427]
本研究では,マスク付き顔認識を容易にするために,生成と識別の表現を学習するための統合されたディープネットワークを提案する。
まず,顔の塗り絵に予め訓練された生成エンコーダを利用して,顔のマスクをカテゴリ認識記述子に表現する。
我々は,多層畳み込みネットワークを識別的再構成器として組み込んで,カテゴリ対応記述子をアイデンティティ対応ベクトルに変換することを学習する。
論文 参考訳(メタデータ) (2024-05-27T02:20:55Z) - Ablation Study to Clarify the Mechanism of Object Segmentation in
Multi-Object Representation Learning [3.921076451326107]
マルチオブジェクト表現学習は、複数のオブジェクトの合成を用いて、複雑な実世界の視覚入力を表現することを目的としている。
従来の手法が個々のオブジェクトの適切なセグメンテーションを達成できたかは明らかになっていない。
従来の手法のほとんどは変分オートエンコーダ(VAE)を用いて潜在ベクトルを正則化する。
論文 参考訳(メタデータ) (2023-10-05T02:59:48Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - PFENet++: Boosting Few-shot Semantic Segmentation with the
Noise-filtered Context-aware Prior Mask [62.37727055343632]
「Few-Shot」のためのガイド機能強化ネットワークで提案された以前のマスクガイダンスを再考する。
本稿では,クエリ画像中のオブジェクトの配置を改善するために,近隣のセマンティックキューを活用するコンテキスト対応プリエントマスク(CAPM)を提案する。
我々は、不要な応答をスクリーニングするために、軽量ノイズ抑圧モジュール(NSM)を組み込むことにより、さらに一歩前進する。
論文 参考訳(メタデータ) (2021-09-28T15:07:43Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Are you wearing a mask? Improving mask detection from speech using
augmentation by cycle-consistent GANs [24.182791316595576]
本稿では,音声からのマスク検出のための新しいデータ拡張手法を提案する。
提案手法は (i) GAN(Geneversarative Adrial Networks) の学習に基づく。
我々のデータ拡張アプローチは、他のベースラインや最先端の拡張手法よりも優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-17T20:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。