Fugu-MT 論文翻訳(概要): Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case Study Using Music Audio

論文の概要: Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case Study Using Music Audio

arxiv url: http://arxiv.org/abs/2205.05871v1
Date: Thu, 12 May 2022 04:11:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-13 22:41:10.341211
Title: Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case Study Using Music Audio
Title（参考訳）: ロバストな教師なしシーケンスデータのアンタングル化に向けて-音楽オーディオを用いたケーススタディ
Authors: Yin-Jyun Luo, Sebastian Ewert, Simon Dixon
Abstract要約: Disentangled Sequence Autoencoder (DSAE) は確率的グラフィカルモデルのクラスを表す。バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であることを示す。本稿では,まずシーケンスレベルの事前分布を学習する2段階のトレーニングフレームワークTS-DSAEを提案する。
参考スコア（独自算出の注目度）: 17.214062755082065
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Disentangled sequential autoencoders (DSAEs) represent a class of probabilistic graphical models that describes an observed sequence with dynamic latent variables and a static latent variable. The former encode information at a frame rate identical to the observation, while the latter globally governs the entire sequence. This introduces an inductive bias and facilitates unsupervised disentanglement of the underlying local and global factors. In this paper, we show that the vanilla DSAE suffers from being sensitive to the choice of model architecture and capacity of the dynamic latent variables, and is prone to collapse the static latent variable. As a countermeasure, we propose TS-DSAE, a two-stage training framework that first learns sequence-level prior distributions, which are subsequently employed to regularise the model and facilitate auxiliary objectives to promote disentanglement. The proposed framework is fully unsupervised and robust against the global factor collapse problem across a wide range of model configurations. It also avoids typical solutions such as adversarial training which usually involves laborious parameter tuning, and domain-specific data augmentation. We conduct quantitative and qualitative evaluations to demonstrate its robustness in terms of disentanglement on both artificial and real-world music audio datasets.
Abstract（参考訳）: Disentangled Sequence Autoencoders (DSAE) は、動的潜伏変数と静的潜伏変数を持つ観測シーケンスを記述する確率的グラフィカルモデルのクラスである。前者は観察と同一のフレームレートで情報を符号化し、後者は全シーケンスをグローバルに制御する。これは帰納バイアスを導入し、根底にある局所的および大域的要因の教師なしの解離を促進する。本稿では,バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であり,静的潜伏変数を崩壊させる傾向にあることを示す。そこで,本研究ではts-dsaeを提案する。ts-dsaeは,まずシーケンスレベルの事前分布を学習し,その後にモデルの正則化と補助目標の促進に活用し,絡み合いを促進する2段階学習フレームワークである。提案されたフレームワークは完全に教師なしで、幅広いモデル構成にわたるグローバルファクタ崩壊問題に対して堅牢である。また、通常、激しいパラメータチューニングやドメイン固有のデータ拡張を含む逆トレーニングのような典型的なソリューションも避ける。本研究は,実世界の音響データセットと人工音響データセットの両面から,その頑健性を示す定量的,質的な評価を行う。

関連論文リスト

Lightweight Channel-wise Dynamic Fusion Model: Non-stationary Time Series Forecasting via Entropy Analysis [25.291749176117662]
我々は、分散が時系列の非定常性に対する有効かつ解釈可能なプロキシであることを示す。軽量なtextitChannel-wise textitDynamic textitFusion textitModel(textitCDFM)を提案する。 7つの時系列データセットに関する総合的な実験は、CDFMの優位性と一般化能力を示している。
論文参考訳（メタデータ） (2025-03-04T13:29:42Z)
Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。はじめに,デノナイジングネットワーク自体によって生成順序を予測できることを実証した。
論文参考訳（メタデータ） (2025-02-28T14:08:30Z)
Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [11.400431211239958]
拡散モデルは生成モデリングの強力なツールとして登場してきた。微調整拡散モデルのための制御フレームワークを提案する。 PI-FTは線形速度で大域収束することを示す。
論文参考訳（メタデータ） (2024-12-24T04:55:46Z)
DRIVE: Dual-Robustness via Information Variability and Entropic Consistency in Source-Free Unsupervised Domain Adaptation [10.127634263641877]
ラベル付きデータなしで機械学習モデルを新しいドメインに適応させることは、医療画像、自律運転、リモートセンシングといったアプリケーションにおいて重要な課題である。 Source-Free Unsupervised Domain Adaptation (SFUDA)と呼ばれるこのタスクでは、未ラベルのターゲットデータのみを使用して、トレーニング済みのモデルをターゲットドメインに適応させる。既存のSFUDAメソッドは、しばしば単一モデルアーキテクチャに依存し、ターゲットドメインにおける不確実性と可変性に悩まされる。本稿では、2重モデルアーキテクチャを利用した新しいSFUDAフレームワークDRIVEを提案する。
論文参考訳（メタデータ） (2024-11-24T20:35:04Z)
Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。私たちのフレームワークは、3つの新しい目標のファミリーにつながります。 Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文参考訳（メタデータ） (2024-10-10T17:18:30Z)
FiP: a Fixed-Point Approach for Causal Generative Modeling [20.88890689294816]
因果順序付き変数上の不動点問題を記述するのにDAGを必要としない新しい等価形式法を提案する。トポロジカル秩序(TO)を考慮し,一意に回復できる3つの重要な症例を示す。
論文参考訳（メタデータ） (2024-04-10T12:29:05Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
Neural Continuous-Discrete State Space Models for Irregularly-Sampled Time Series [18.885471782270375]
NCDSSMは補助変数を用いて力学からの認識をアンタングルし、補助変数のみに償却推論を必要とする。本稿では、潜在力学の3つのフレキシブルパラメータ化と、推論中の動的状態の辺りを生かした効率的な学習目標を提案する。複数のベンチマークデータセットの実証結果は、既存のモデルよりもNCDSSMの計算性能と予測性能が改善されたことを示している。
論文参考訳（メタデータ） (2023-01-26T18:45:04Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文参考訳（メタデータ） (2023-01-03T06:47:31Z)
Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文参考訳（メタデータ） (2020-10-16T21:48:29Z)
Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。 Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文参考訳（メタデータ） (2020-06-15T22:22:56Z)
S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement and Data Generation [31.38329747789168]
自己超越下での逐次データの不整合表現を学習するための逐次変分オートエンコーダを提案する。我々は、入力データ自体から容易にアクセス可能な監視信号や、市販の機能モデルから得られる利点を利用する。我々のモデルは入力シーケンスの表現を静的因子と動的因子に容易に切り離すことができる。
論文参考訳（メタデータ） (2020-05-23T00:44:38Z)
Variational Hyper RNN for Sequence Modeling [69.0659591456772]
本稿では,時系列データにおける高変数の取得に優れる新しい確率的シーケンスモデルを提案する。提案手法では,時間潜時変数を用いて基礎となるデータパターンに関する情報をキャプチャする。提案手法の有効性を,合成および実世界のシーケンシャルデータに示す。
論文参考訳（メタデータ） (2020-02-24T19:30:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。