論文の概要: DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector
Quantization
- arxiv url: http://arxiv.org/abs/2012.06659v1
- Date: Fri, 11 Dec 2020 22:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:08:17.358684
- Title: DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector
Quantization
- Title(参考訳): DeCoAR 2.0:ベクトル量子化を用いた深部環境音響表現
- Authors: Shaoshi Ling, Yuzong Liu
- Abstract要約: 近年の音声表現学習の成功により、ラベルなしデータを利用した音声認識モデルの訓練が可能となった。
ベクトル量子化を用いたディープコンテキスト化音響表現DeCoAR 2.0を提案する。
実験では、異なるデータスパースシナリオにおける他の音声表現に対する一貫した改善を示す。
- 参考スコア(独自算出の注目度): 5.9774834479750805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success in speech representation learning enables a new way to
leverage unlabeled data to train speech recognition model. In speech
representation learning, a large amount of unlabeled data is used in a
self-supervised manner to learn a feature representation. Then a smaller amount
of labeled data is used to train a downstream ASR system using the new feature
representations. Based on our previous work DeCoAR and inspirations from other
speech representation learning, we propose DeCoAR 2.0, a Deep Contextualized
Acoustic Representation with vector quantization. We introduce several
modifications over the DeCoAR: first, we use Transformers in encoding module
instead of LSTMs; second, we introduce a vector quantization layer between
encoder and reconstruction modules; third, we propose an objective that
combines the reconstructive loss with vector quantization diversity loss to
train speech representations. Our experiments show consistent improvements over
other speech representations in different data-sparse scenarios. Without
fine-tuning, a light-weight ASR model trained on 10 hours of LibriSpeech
labeled data with DeCoAR 2.0 features outperforms the model trained on the full
960-hour dataset with filterbank features.
- Abstract(参考訳): 近年の音声表現学習の成功により、ラベルなしデータを利用した音声認識モデルの訓練が可能となった。
音声表現学習では、大量のラベルのないデータを自己教師ありで使用して特徴表現を学習する。
そして、新しい特徴表現を用いて下流のASRシステムをトレーニングするためにラベル付きデータの少ない量を使用する。
従来のDeCoARと他の音声表現学習のインスピレーションに基づいて,ベクトル量子化を用いたDeCoAR 2.0を提案する。
まず、LSTMの代わりにトランスフォーマーを使用し、次に、エンコーダと再構成モジュールの間にベクトル量子化層を導入し、第3に、再構成損失とベクトル量子化の多様性損失を組み合わせて、音声表現を訓練する目的を提案する。
実験では、異なるデータスパースシナリオにおける他の音声表現に対する一貫した改善を示す。
微調整なしでは、DeCoAR 2.0でラベル付けされたデータ10時間でトレーニングされた軽量のASRモデルは、フィルタバンク機能を備えた960時間データセットでトレーニングされたモデルよりも優れている。
関連論文リスト
- DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。