論文の概要: Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case
Study Using Music Audio
- arxiv url: http://arxiv.org/abs/2205.05871v1
- Date: Thu, 12 May 2022 04:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 22:41:10.341211
- Title: Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case
Study Using Music Audio
- Title(参考訳): ロバストな教師なしシーケンスデータのアンタングル化に向けて-音楽オーディオを用いたケーススタディ
- Authors: Yin-Jyun Luo, Sebastian Ewert, Simon Dixon
- Abstract要約: Disentangled Sequence Autoencoder (DSAE) は確率的グラフィカルモデルのクラスを表す。
バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であることを示す。
本稿では,まずシーケンスレベルの事前分布を学習する2段階のトレーニングフレームワークTS-DSAEを提案する。
- 参考スコア(独自算出の注目度): 17.214062755082065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentangled sequential autoencoders (DSAEs) represent a class of
probabilistic graphical models that describes an observed sequence with dynamic
latent variables and a static latent variable. The former encode information at
a frame rate identical to the observation, while the latter globally governs
the entire sequence. This introduces an inductive bias and facilitates
unsupervised disentanglement of the underlying local and global factors. In
this paper, we show that the vanilla DSAE suffers from being sensitive to the
choice of model architecture and capacity of the dynamic latent variables, and
is prone to collapse the static latent variable. As a countermeasure, we
propose TS-DSAE, a two-stage training framework that first learns
sequence-level prior distributions, which are subsequently employed to
regularise the model and facilitate auxiliary objectives to promote
disentanglement. The proposed framework is fully unsupervised and robust
against the global factor collapse problem across a wide range of model
configurations. It also avoids typical solutions such as adversarial training
which usually involves laborious parameter tuning, and domain-specific data
augmentation. We conduct quantitative and qualitative evaluations to
demonstrate its robustness in terms of disentanglement on both artificial and
real-world music audio datasets.
- Abstract(参考訳): Disentangled Sequence Autoencoders (DSAE) は、動的潜伏変数と静的潜伏変数を持つ観測シーケンスを記述する確率的グラフィカルモデルのクラスである。
前者は観察と同一のフレームレートで情報を符号化し、後者は全シーケンスをグローバルに制御する。
これは帰納バイアスを導入し、根底にある局所的および大域的要因の教師なしの解離を促進する。
本稿では,バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であり,静的潜伏変数を崩壊させる傾向にあることを示す。
そこで,本研究ではts-dsaeを提案する。ts-dsaeは,まずシーケンスレベルの事前分布を学習し,その後にモデルの正則化と補助目標の促進に活用し,絡み合いを促進する2段階学習フレームワークである。
提案されたフレームワークは完全に教師なしで、幅広いモデル構成にわたるグローバルファクタ崩壊問題に対して堅牢である。
また、通常、激しいパラメータチューニングやドメイン固有のデータ拡張を含む逆トレーニングのような典型的なソリューションも避ける。
本研究は,実世界の音響データセットと人工音響データセットの両面から,その頑健性を示す定量的,質的な評価を行う。
関連論文リスト
- Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Neural Continuous-Discrete State Space Models for Irregularly-Sampled
Time Series [18.885471782270375]
NCDSSMは補助変数を用いて力学からの認識をアンタングルし、補助変数のみに償却推論を必要とする。
本稿では、潜在力学の3つのフレキシブルパラメータ化と、推論中の動的状態の辺りを生かした効率的な学習目標を提案する。
複数のベンチマークデータセットの実証結果は、既存のモデルよりもNCDSSMの計算性能と予測性能が改善されたことを示している。
論文 参考訳(メタデータ) (2023-01-26T18:45:04Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - Contrastively Disentangled Sequential Variational Autoencoder [20.75922928324671]
本稿では,C-DSVAE(Contrastively Disentangled Sequential Variational Autoencoder)という新しいシーケンス表現学習手法を提案する。
我々は,静的因子と動的因子の相互情報をペナルティ化しながら,入力と潜伏因子の相互情報を最大化する新しいエビデンスローバウンドを用いる。
実験の結果、C-DSVAEは従来の最先端の手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2021-10-22T23:00:32Z) - Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles
modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。
我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。
我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文 参考訳(メタデータ) (2020-10-16T21:48:29Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - To Regularize or Not To Regularize? The Bias Variance Trade-off in
Regularized AEs [10.611727286504994]
AEモデルの生成決定論的品質に及ぼす潜伏剤の影響について検討する。
我々は、FlexAEと呼ばれるモデルが、AEベースの生成モデルのための新しい最先端技術であることを示します。
論文 参考訳(メタデータ) (2020-06-10T14:00:14Z) - S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement
and Data Generation [31.38329747789168]
自己超越下での逐次データの不整合表現を学習するための逐次変分オートエンコーダを提案する。
我々は、入力データ自体から容易にアクセス可能な監視信号や、市販の機能モデルから得られる利点を利用する。
我々のモデルは入力シーケンスの表現を静的因子と動的因子に容易に切り離すことができる。
論文 参考訳(メタデータ) (2020-05-23T00:44:38Z) - Variational Hyper RNN for Sequence Modeling [69.0659591456772]
本稿では,時系列データにおける高変数の取得に優れる新しい確率的シーケンスモデルを提案する。
提案手法では,時間潜時変数を用いて基礎となるデータパターンに関する情報をキャプチャする。
提案手法の有効性を,合成および実世界のシーケンシャルデータに示す。
論文 参考訳(メタデータ) (2020-02-24T19:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。