論文の概要: Ask2Mask: Guided Data Selection for Masked Speech Modeling
- arxiv url: http://arxiv.org/abs/2202.12719v1
- Date: Thu, 24 Feb 2022 17:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 03:58:55.318362
- Title: Ask2Mask: Guided Data Selection for Masked Speech Modeling
- Title(参考訳): Ask2Mask: Masked Speech Modelingのためのガイド付きデータ選択
- Authors: Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Yu
Zhang and Pedro Moreno
- Abstract要約: Masked Speech Modeling (MSM) は、発話中にランダムにマスキングされた音声フレーム上の表現を学習する。
教師なしのすべての音声サンプルを同じ重さで扱うことで、すべてのサンプルが意味のある表現を学ぶための関連情報を持っているわけではないため、学習を妨げる。
我々は,MSM事前トレーニング中に特定のサンプルに焦点をあてる新しいアプローチである ask2mask (ATM) を提案する。
- 参考スコア(独自算出の注目度): 25.716834361963468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked speech modeling (MSM) methods such as wav2vec2 or w2v-BERT learn
representations over speech frames which are randomly masked within an
utterance. While these methods improve performance of Automatic Speech
Recognition (ASR) systems, they have one major limitation. They treat all
unsupervised speech samples with equal weight, which hinders learning as not
all samples have relevant information to learn meaningful representations. In
this work, we address this limitation. We propose ask2mask (ATM), a novel
approach to focus on specific samples during MSM pre-training. ATM employs an
external ASR model or \textit{scorer} to weight unsupervised input samples in
two different ways: 1) A fine-grained data selection is performed by masking
over the highly confident input frames as chosen by the scorer. This allows the
model to learn meaningful representations. 2) ATM is further extended to focus
at utterance-level by weighting the final MSM loss with the utterance-level
confidence score. We conduct fine-tuning experiments on two well-benchmarked
corpora: LibriSpeech (matching the pre-training data) and Commonvoice,
TED-LIUM, AMI and CHiME-6 (not matching the pre-training data). The results
substantiate the efficacy of ATM on significantly improving the recognition
performance under mismatched conditions (up to 11.6\% relative over published
results and upto 4.46\% relative over our internal baseline) while still
yielding modest improvements under matched conditions.
- Abstract(参考訳): wav2vec2やw2v-BERTのようなマスケ音声モデリング(MSM)は、発話中にランダムにマスクされた音声フレーム上の表現を学習する。
これらの手法は自動音声認識(ASR)システムの性能を向上させるが、大きな限界がある。
教師なしのすべての音声サンプルを同等の重さで処理し、すべてのサンプルが意味のある表現を学ぶための関連情報を持っているわけではないため学習を妨げる。
この作業では、この制限に対処する。
本稿では,MSM事前トレーニング中に特定のサンプルに注目する新しいアプローチである ask2mask (ATM) を提案する。
ATM は外部の ASR モデルまたは \textit{scorer} を用いて、2つの異なる方法で教師なし入力サンプルを重み付けする。
1)得点者が選択した高信頼な入力フレームをマスキングして細かなデータ選択を行う。
これによりモデルが意味のある表現を学ぶことができる。
2) ATMは、最後のMSM損失を発話レベルの信頼度スコアで重み付けすることで、発話レベルに集中するようにさらに拡張される。
LibriSpeech(事前学習データに適合)とCommonvoice(TED-Lium,AMI,CHiME-6(事前学習データに一致しない)の2つのコーパスで微調整実験を行った。
その結果, 未適合条件下での認識性能を著しく向上させるATMの有効性を実証し, 整合条件下では, 従来よりも最大11.6\%, 内部ベースラインより最大4.46\%向上した。
関連論文リスト
- DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - Introducing Model Inversion Attacks on Automatic Speaker Recognition [0.9558392439655015]
モデル反転(MI)攻撃は、機械学習(ML)モデルのトレーニングデータのクラス毎の平均表現を再構築することを可能にする。
本稿では,(1)訓練されたMLモデルから音声サンプルを再構成し,(2)話者の生体情報に有意な洞察を与える中間的音声特徴表現を抽出する手法を提案する。
我々のスライディングMIは、オーディオサンプルの重なり合うチャンクを反復反転することで標準MIを拡張します。
逆音声データを用いて話者を偽装する音声サンプルを生成し、高度にセキュアなシステムに対して音声保護コマンドを実行することができることを示す。
論文 参考訳(メタデータ) (2023-01-09T08:51:15Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Towards Semi-Supervised Deep Facial Expression Recognition with An
Adaptive Confidence Margin [92.76372026435858]
Ada-CM(Adaptive Confidence Margin)を学習し、ラベルのないすべてのデータを半教師付き深層表情認識に活用する。
すべてのラベルなしサンプルは、信頼スコアと適応的に学習された信頼マージンを比較して、2つのサブセットに分割される。
提案手法は最先端の性能,特に半教師付きベースラインを超越した性能を実現する。
論文 参考訳(メタデータ) (2022-03-23T11:43:29Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training [49.47516627019855]
w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。
実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-08-07T06:29:36Z) - Meta Auxiliary Learning for Facial Action Unit Detection [84.22521265124806]
マルチタスク方式でAU検出と表情認識を学習することを検討する。
マルチタスクシナリオにおける負の転送のため、AU検出タスクの性能を常に向上することはできない。
トレーニングFEサンプルの適応重みをメタラーニング方式で学習し,高相関なFEサンプルを自動的に選択するメタラーニング法(MAL)を提案する。
論文 参考訳(メタデータ) (2021-05-14T02:28:40Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。