論文の概要: EH-MAM: Easy-to-Hard Masked Acoustic Modeling for Self-Supervised Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2410.13179v1
- Date: Thu, 17 Oct 2024 02:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:22.728045
- Title: EH-MAM: Easy-to-Hard Masked Acoustic Modeling for Self-Supervised Speech Representation Learning
- Title(参考訳): EH-MAM:自己教師付き音声表現学習のための手軽にマスタードされた音響モデル
- Authors: Ashish Seth, Ramaneswaran Selvakumar, S Sakshi, Sonal Kumar, Sreyan Ghosh, Dinesh Manocha,
- Abstract要約: EH-MAM (Easy-to-Hard Adaptive Masked Acoustic Modeling) は,音声表現学習のための新しい自己教師型学習手法である。
マスク付き音響モデリング(MAM)のための新しい選択的適応マスキング手法を提案する。
EH-MAMは、様々な低リソース音声認識とSUPERBベンチマークにおいて、最先端のベースラインを5%-10%上回っている。
- 参考スコア(独自算出の注目度): 46.66166658067071
- License:
- Abstract: In this paper, we present EH-MAM (Easy-to-Hard adaptive Masked Acoustic Modeling), a novel self-supervised learning approach for speech representation learning. In contrast to the prior methods that use random masking schemes for Masked Acoustic Modeling (MAM), we introduce a novel selective and adaptive masking strategy. Specifically, during SSL training, we progressively introduce harder regions to the model for reconstruction. Our approach automatically selects hard regions and is built on the observation that the reconstruction loss of individual frames in MAM can provide natural signals to judge the difficulty of solving the MAM pre-text task for that frame. To identify these hard regions, we employ a teacher model that first predicts the frame-wise losses and then decides which frames to mask. By learning to create challenging problems, such as identifying harder frames and solving them simultaneously, the model is able to learn more effective representations and thereby acquire a more comprehensive understanding of the speech. Quantitatively, EH-MAM outperforms several state-of-the-art baselines across various low-resource speech recognition and SUPERB benchmarks by 5%-10%. Additionally, we conduct a thorough analysis to show that the regions masked by EH-MAM effectively capture useful context across speech frames.
- Abstract(参考訳): 本稿では,表現学習のための新しい自己教師型学習手法であるEH-MAM(Easy-to-Hard Adaptive Masked Acoustic Modeling)を提案する。
Masked Acoustic Modeling (MAM) にランダムマスキング方式を用いた従来の手法とは対照的に,我々は新しい選択的適応マスキング方式を導入する。
具体的には、SSLトレーニング中に、再構築のためのモデルにより難しい領域を徐々に導入する。
提案手法は,MAMにおける個々のフレームの復元損失が,そのフレームに対するMAM事前テキスト処理の難易度を判断するための自然な信号を与えることができることを示す。
これらの難易度を識別するために、まずフレームワイドの損失を予測し、次にどのフレームをマスクするかを決定する教師モデルを用いる。
難しいフレームを識別し、それらを同時に解決するといった難しい問題を学習することで、モデルはより効果的な表現を学習し、それによってより包括的な音声理解を得ることができる。
定量的には、EH-MAMは様々な低リソース音声認識とSUPERBベンチマークにおいて、最先端のベースラインを5%-10%上回っている。
さらに,EH-MAMによって隠蔽された領域が,音声フレーム間で有用なコンテキストを効果的に捉えていることを示すために,徹底的な分析を行う。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility [15.463932957443973]
音声の復元は、様々な歪みのセットを考慮して、高品質で知性の高い全帯域音声を復元することを目的としている。
MaskSRは、最近提案されたこのタスクのための生成モデルである。
提案モデルであるMaskSR2は,同一のMaskSRモデルキャパシティと推定時間を用いて,単語の誤り率を大幅に低減することを示した。
論文 参考訳(メタデータ) (2024-09-14T08:09:55Z) - Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。
有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。
この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文 参考訳(メタデータ) (2024-07-22T17:54:41Z) - MaskSR: Masked Language Model for Full-band Speech Restoration [7.015213589171985]
音声の復元は,様々な歪みが存在する場合に高品質な音声を復元することを目的としている。
雑音,リバーブ,クリップング,低帯域を考慮したフルバンド44.1kHz音声の復元が可能なマスク付き言語モデルであるMaskSRを提案する。
論文 参考訳(メタデータ) (2024-06-04T08:23:57Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。