論文の概要: Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations
- arxiv url: http://arxiv.org/abs/2007.12948v1
- Date: Sat, 25 Jul 2020 14:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:50:43.640845
- Title: Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations
- Title(参考訳): 音声表現学習のための補助変数を持つ非線形ISA
- Authors: Amrith Setlur, Barnabas Poczos, Alan W Black
- Abstract要約: 補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 51.9516685516144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper extends recent work on nonlinear Independent Component Analysis
(ICA) by introducing a theoretical framework for nonlinear Independent Subspace
Analysis (ISA) in the presence of auxiliary variables. Observed high
dimensional acoustic features like log Mel spectrograms can be considered as
surface level manifestations of nonlinear transformations over individual
multivariate sources of information like speaker characteristics, phonological
content etc. Under assumptions of energy based models we use the theory of
nonlinear ISA to propose an algorithm that learns unsupervised speech
representations whose subspaces are independent and potentially highly
correlated with the original non-stationary multivariate sources. We show how
nonlinear ICA with auxiliary variables can be extended to a generic
identifiable model for subspaces as well while also providing sufficient
conditions for the identifiability of these high dimensional subspaces. Our
proposed methodology is generic and can be integrated with standard
unsupervised approaches to learn speech representations with subspaces that can
theoretically capture independent higher order speech signals. We evaluate the
gains of our algorithm when integrated with the Autoregressive Predictive
Decoding (APC) model by showing empirical results on the speaker verification
and phoneme recognition tasks.
- Abstract(参考訳): 本稿では,補助変数の存在下での非線形独立部分空間解析(isa)の理論的枠組みを導入することにより,非線形独立成分分析(ica)に関する最近の研究を展開する。
対数メル分光法のような高次元音響特性は、話者特性や音韻的内容などの個々の多変量源上での非線形変換の表面レベル表現とみなすことができる。
エネルギーベースモデルの仮定の下では、非線形ISA理論を用いて、部分空間が独立であり、元の非定常多変量源と高い相関を持つ教師なし音声表現を学習するアルゴリズムを提案する。
補助変数を持つ非線形ICAが、これらの高次元部分空間の識別可能性に十分な条件を提供しながら、部分空間の一般識別モデルにどのように拡張できるかを示す。
提案手法は汎用的であり,独立した高次音声信号を理論的に捕捉できる部分空間を用いて音声表現を学習するための標準的な教師なし手法と統合することができる。
話者検証および音素認識タスクにおいて経験的な結果を示すことにより,自動回帰予測復号(APC)モデルと統合した場合のアルゴリズムの利得を評価する。
関連論文リスト
- Latent Space Perspicacity and Interpretation Enhancement (LS-PIE)
Framework [0.0]
本稿では,線形潜在空間の解釈可能性向上のための潜在空間表現を強化するための一般的な枠組みを提案する。
この論文のコンセプトは言語に依存しないが、フレームワークはPythonで記述されている。
ラテント・ランキング(LR)、ラテント・スケーリング(LS)、ラテント・クラスタリング(LC)、ラテント・コンデンシング(LCON)など、いくつかの革新的な拡張が組み込まれている。
論文 参考訳(メタデータ) (2023-07-11T03:56:04Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - I Don't Need $\mathbf{u}$: Identifiable Non-Linear ICA Without Side
Information [13.936583337756883]
本稿では,非線形ICAモデルの同定のための新しいアプローチを提案する。
特に、潜在空間でクラスタリングを行う生成モデルに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-09T17:22:08Z) - Transforming Feature Space to Interpret Machine Learning Models [91.62936410696409]
この貢献は、特徴空間変換のレンズを通して機械学習モデルを解釈する新しいアプローチを提案する。
非条件的および条件付きポストホック診断ツールの拡張に使用できる。
提案手法の可能性を実証するために,46特徴のリモートセンシング土地被覆分類の事例研究を行った。
論文 参考訳(メタデータ) (2021-04-09T10:48:11Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Controlling for sparsity in sparse factor analysis models: adaptive
latent feature sharing for piecewise linear dimensionality reduction [2.896192909215469]
本稿では,現在潜伏している特徴分解技術の鍵となる限界に対処できる,シンプルでトラクタブルな特徴割り当てモデルを提案する。
適応型因子分析(aFA)と適応型確率的原理成分分析(aPPCA)を応用し,柔軟な構造発見と次元減少を実現する。
APPCAとaFAは、生のMNISTに適用した場合と、オートエンコーダの特徴を解釈する場合の両方において、高いレベルの特徴を推測できることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:09:11Z) - BasisVAE: Translation-invariant feature-level clustering with
Variational Autoencoders [9.51828574518325]
変分オートエンコーダ(VAE)は、非線形次元削減のための柔軟でスケーラブルなフレームワークを提供する。
崩壊した変分推論スキームがBasisVAEのスケーラブルかつ効率的な推論にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2020-03-06T23:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。