論文の概要: Autoregressive Co-Training for Learning Discrete Speech Representations
- arxiv url: http://arxiv.org/abs/2203.15840v1
- Date: Tue, 29 Mar 2022 18:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 14:19:34.786211
- Title: Autoregressive Co-Training for Learning Discrete Speech Representations
- Title(参考訳): 離散音声表現学習のための自己回帰協調学習
- Authors: Sung-Lin Yeh, Hao Tang
- Abstract要約: 音声の離散表現を学習する離散潜在変数を持つ生成モデルを考える。
提案手法は音素単位と高い相関関係を持つ離散表現を学習する。
- 参考スコア(独自算出の注目度): 19.400428010647573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While several self-supervised approaches for learning discrete speech
representation have been proposed, it is unclear how these seemingly similar
approaches relate to each other. In this paper, we consider a generative model
with discrete latent variables that learns a discrete representation for
speech. The objective of learning the generative model is formulated as
information-theoretic co-training. Besides the wide generality, the objective
can be optimized with several approaches, subsuming HuBERT-like training and
vector quantization for learning discrete representation. Empirically, we find
that the proposed approach learns discrete representation that is highly
correlated with phonetic units, more correlated than HuBERT-like training and
vector quantization.
- Abstract(参考訳): 離散表現を学習するための自己教師型アプローチがいくつか提案されているが、これらの類似したアプローチが相互にどのように関係しているかは明らかでない。
本稿では,音声の離散表現を学習する離散潜在変数を持つ生成モデルについて考察する。
生成モデルを学習する目的は情報理論コトレーニングとして定式化される。
広義の一般性に加えて、目的はHuBERTのような訓練や離散表現学習のためのベクトル量子化など、いくつかのアプローチで最適化することができる。
実験により,提案手法は,HuBERTライクなトレーニングやベクトル量子化よりも高い相関性を持つ音素単位と高い相関性を持つ離散表現を学習することがわかった。
関連論文リスト
- Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - A Probabilistic Model behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
識別性SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示す。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Posthoc Interpretation via Quantization [9.510336895838703]
本稿では,量子化によるポストホック解釈 (Posthoc Interpretation via Quantization, PIQ) と呼ばれる新しい手法を導入する。
本手法はベクトル量子化を用いて分類器の表現を離散クラス固有の潜在空間に変換する。
我々のモデル定式化は、事前訓練されたアノテーションモデルの監督を組み込むことで、学習の概念を可能にする。
論文 参考訳(メタデータ) (2023-03-22T15:37:43Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z) - Instance-Based Learning of Span Representations: A Case Study through
Named Entity Recognition [48.06319154279427]
本研究では,スパン間の類似性を学習するインスタンスベースの学習手法を提案する。
本手法では,性能を犠牲にすることなく高い解釈性を持つモデルを構築することができる。
論文 参考訳(メタデータ) (2020-04-29T23:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。