論文の概要: General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework
- arxiv url: http://arxiv.org/abs/2102.01930v1
- Date: Wed, 3 Feb 2021 08:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 16:59:44.967064
- Title: General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework
- Title(参考訳): 自己監督型マルチグラニュラリティフレームワークによる汎用音声表現学習
- Authors: Yucheng Zhao, Dacheng Yin, Chong Luo, Zhiyuan Zhao, Chuanxin Tang,
Wenjun Zeng, Zheng-Jun Zha
- Abstract要約: 本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
- 参考スコア(独自算出の注目度): 114.63823178097402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a self-supervised learning framework, named MGF, for
general-purpose speech representation learning. In the design of MGF, speech
hierarchy is taken into consideration. Specifically, we propose to use
generative learning approaches to capture fine-grained information at small
time scales and use discriminative learning approaches to distill
coarse-grained or semantic information at large time scales. For phoneme-scale
learning, we borrow idea from the masked language model but tailor it for the
continuous speech signal by replacing classification loss with a contrastive
loss. We corroborate our design by evaluating MGF representation on various
downstream tasks, including phoneme classification, speaker classification,
speech recognition, and emotion classification. Experiments verify that
training at different time scales needs different training targets and loss
functions, which in general complement each other and lead to a better
performance.
- Abstract(参考訳): 本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
MGFの設計では、音声階層を考慮に入れている。
具体的には,細粒度情報を小さな時間スケールで捉えるための生成的学習手法と,粗粒度や意味的情報を大規模に蒸留する識別的学習手法を提案する。
音素スケール学習では、マスク付き言語モデルからアイデアを借りるが、分類損失を対照的な損失に置き換えることで連続的な音声信号に合わせる。
我々は, 音素分類, 話者分類, 音声認識, 感情分類など, 下流課題のmgf表現を評価することにより, 設計を裏付ける。
実験は、異なる時間スケールでのトレーニングには異なるトレーニング目標と損失関数が必要であることを検証し、一般的に互いに補完し、より良いパフォーマンスにつながります。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - MASR: Multi-label Aware Speech Representation [36.2978180342839]
マルチラベル対応音声表現学習フレームワークMASRを提案する。
MASRは、複数の外部知識ソースを組み込むことで、メタデータ情報の利用を促進できる。
我々は、他の確立されたベンチマークに比べて、MASRの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-07-20T16:09:57Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - A Simple Meta-learning Paradigm for Zero-shot Intent Classification with
Mixture Attention Mechanism [17.228616743739412]
ゼロショット意図分類のためのシンプルなメタ学習パラダイムを提案する。
発話のセマンティック表現を改善するために,新しい混合アテンション機構を導入する。
そこで我々は, メタ学習戦略を用いて, ゼロショット意図分類を改定する。
論文 参考訳(メタデータ) (2022-06-05T13:37:51Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Framework to Enhance Generalization of Deep Metric Learning methods
using General Discriminative Feature Learning and Class Adversarial Neural
Networks [1.5469452301122175]
メトリック学習アルゴリズムは、意味論的に類似したデータアイテムをまとめて、異種データを遠くに保持する距離関数を学習することを目的としている。
データから特徴を自動的に抽出し,入力空間から意味的な埋め込み空間への非線形変換を学習するDeep Metric Learning (DML)法が提案されている。
ゼロショット学習(ZSL)環境において,既存のDML手法の一般化能力を高める枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-11T14:24:40Z) - Speech SIMCLR: Combining Contrastive and Reconstruction Objective for
Self-supervised Speech Representation Learning [20.39971017940006]
音声シムCLRは、音声表現学習のための新しい自己教師型目標である。
トレーニング中、SimCLRは生の音声とそのスペクトログラムに拡張を適用した。
論文 参考訳(メタデータ) (2020-10-27T02:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。