論文の概要: A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning
- arxiv url: http://arxiv.org/abs/2006.02547v2
- Date: Tue, 8 Sep 2020 14:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:36:29.167672
- Title: A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning
- Title(参考訳): 教師なし音声表現学習のための畳み込みDeep Markovモデル
- Authors: Sameer Khurana, Antoine Laurent, Wei-Ning Hsu, Jan Chorowski, Adrian
Lancucki, Ricard Marxer, James Glass
- Abstract要約: 確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
- 参考スコア(独自算出の注目度): 32.59760685342343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probabilistic Latent Variable Models (LVMs) provide an alternative to
self-supervised learning approaches for linguistic representation learning from
speech. LVMs admit an intuitive probabilistic interpretation where the latent
structure shapes the information extracted from the signal. Even though LVMs
have recently seen a renewed interest due to the introduction of Variational
Autoencoders (VAEs), their use for speech representation learning remains
largely unexplored. In this work, we propose Convolutional Deep Markov Model
(ConvDMM), a Gaussian state-space model with non-linear emission and transition
functions modelled by deep neural networks. This unsupervised model is trained
using black box variational inference. A deep convolutional neural network is
used as an inference network for structured variational approximation. When
trained on a large scale speech dataset (LibriSpeech), ConvDMM produces
features that significantly outperform multiple self-supervised feature
extracting methods on linear phone classification and recognition on the Wall
Street Journal dataset. Furthermore, we found that ConvDMM complements
self-supervised methods like Wav2Vec and PASE, improving on the results
achieved with any of the methods alone. Lastly, we find that ConvDMM features
enable learning better phone recognizers than any other features in an extreme
low-resource regime with few labeled training examples.
- Abstract(参考訳): 確率的潜在変数モデル(LVM)は、言語表現学習のための自己教師付き学習手法の代替となる。
lvmは、潜在構造が信号から抽出された情報を形作る直感的な確率的解釈を許容する。
lvmは最近、変分オートエンコーダ(vaes)の導入によって新たな関心が寄せられているが、その音声表現学習への使用は、ほとんど検討されていない。
本研究では,ニューラルネットによってモデル化された非線形エミッションと遷移関数を持つガウス状態空間モデルconvolutional deep markov model (convdmm)を提案する。
この教師なしモデルはブラックボックス変分推論を用いて訓練される。
構造化変動近似の推論ネットワークとして深部畳み込みニューラルネットワークを用いる。
大規模音声データセット(librispeech)でトレーニングすると、convdmmは、wall street journalデータセットでリニア電話の分類と認識に関して、複数の自己教師あり特徴抽出法を大幅に上回る特徴を生成する。
さらに,ConvDMMは,Wav2VecやPASEなどの自己教師型手法を補完し,いずれかの手法単独で得られた結果を改善した。
最後に、ConvDMM機能によって、ラベル付きトレーニング例がほとんどない極低リソースのシステムにおいて、他のどの機能よりも優れた音声認識器を学習できることがわかった。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent
Sentence Spaces [1.529963465178546]
本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-20T17:25:23Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Fully differentiable model discovery [0.0]
ニューラルネットワークに基づくサロゲートとスパースベイズ学習を組み合わせたアプローチを提案する。
我々の研究は、PINNを様々なタイプのニューラルネットワークアーキテクチャに拡張し、ニューラルネットワークベースのサロゲートをベイズパラメータ推論のリッチフィールドに接続する。
論文 参考訳(メタデータ) (2021-06-09T08:11:23Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Causality-aware counterfactual confounding adjustment for feature
representations learned by deep models [14.554818659491644]
因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。
深層ニューラルネットワーク(DNN)モデルによって学習された特徴表現を分解するために、最近提案された対実的アプローチが依然として使われている方法について説明する。
論文 参考訳(メタデータ) (2020-04-20T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。