論文の概要: Improving Speech Representation Learning via Speech-level and
Phoneme-level Masking Approach
- arxiv url: http://arxiv.org/abs/2210.13805v1
- Date: Tue, 25 Oct 2022 07:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:32:15.061727
- Title: Improving Speech Representation Learning via Speech-level and
Phoneme-level Masking Approach
- Title(参考訳): 音声レベルと音素レベルマスキングによる音声表現学習の改善
- Authors: Xulong Zhang, Jianzong Wang, Ning Cheng, Kexin Zhu, Jing Xiao
- Abstract要約: 音声レベルのマスキングと音素レベルのマスキングの2種類のマスキング手法を提案する。
これら2つの手法を用いて事前学習を行い、音素分類と話者認識の2つの下流課題について評価した。
- 参考スコア(独自算出の注目度): 29.962519978925236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering the masked speech frames is widely applied in speech
representation learning. However, most of these models use random masking in
the pre-training. In this work, we proposed two kinds of masking approaches:
(1) speech-level masking, making the model to mask more speech segments than
silence segments, (2) phoneme-level masking, forcing the model to mask the
whole frames of the phoneme, instead of phoneme pieces. We pre-trained the
model via these two approaches, and evaluated on two downstream tasks, phoneme
classification and speaker recognition. The experiments demonstrated that the
proposed masking approaches are beneficial to improve the performance of speech
representation.
- Abstract(参考訳): マスキング音声フレームの復元は、音声表現学習に広く適用されている。
しかし、これらのモデルのほとんどは事前トレーニングでランダムマスクを使用する。
本研究では,(1)音声レベルマスキング,(2)音素レベルマスキング,(2)音素レベルマスキング,(2)音素レベルマスキングの2種類のマスキング手法を提案する。
この2つのアプローチでモデルを事前学習し,音素分類と話者認識の2つの下流タスクで評価した。
実験の結果,提案手法は音声表現の性能向上に有効であることがわかった。
関連論文リスト
- MaskSR: Masked Language Model for Full-band Speech Restoration [7.015213589171985]
音声の復元は,様々な歪みが存在する場合に高品質な音声を復元することを目的としている。
雑音,リバーブ,クリップング,低帯域を考慮したフルバンド44.1kHz音声の復元が可能なマスク付き言語モデルであるMaskSRを提案する。
論文 参考訳(メタデータ) (2024-06-04T08:23:57Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - InforMask: Unsupervised Informative Masking for Language Model
Pretraining [13.177839395411858]
マスク付き言語モデルのトレーニングのための新しい教師なしマスキング戦略を提案する。
InforMaskはポイントワイド・ミューチュアル・インフォメーション(PMI)を利用して、マスクする最も情報性の高いトークンを選択する。
論文 参考訳(メタデータ) (2022-10-21T07:10:56Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。