論文の概要、ライセンス

# (参考訳) ロバストな教師なしシーケンスデータのアンタングル化に向けて-音楽オーディオを用いたケーススタディ [全文訳有]

Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case Study Using Music Audio ( http://arxiv.org/abs/2205.05871v1 )

ライセンス: CC BY 4.0
Yin-Jyun Luo, Sebastian Ewert, Simon Dixon(参考訳) Disentangled Sequence Autoencoders (DSAE) は、動的潜伏変数と静的潜伏変数を持つ観測シーケンスを記述する確率的グラフィカルモデルのクラスである。 前者は観察と同一のフレームレートで情報を符号化し、後者は全シーケンスをグローバルに制御する。 これは帰納バイアスを導入し、根底にある局所的および大域的要因の教師なしの解離を促進する。 本稿では,バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であり,静的潜伏変数を崩壊させる傾向にあることを示す。 そこで,本研究ではts-dsaeを提案する。ts-dsaeは,まずシーケンスレベルの事前分布を学習し,その後にモデルの正則化と補助目標の促進に活用し,絡み合いを促進する2段階学習フレームワークである。 提案されたフレームワークは完全に教師なしで、幅広いモデル構成にわたるグローバルファクタ崩壊問題に対して堅牢である。 また、通常、激しいパラメータチューニングやドメイン固有のデータ拡張を含む逆トレーニングのような典型的なソリューションも避ける。 本研究は,実世界の音響データセットと人工音響データセットの両面から,その頑健性を示す定量的,質的な評価を行う。

Disentangled sequential autoencoders (DSAEs) represent a class of probabilistic graphical models that describes an observed sequence with dynamic latent variables and a static latent variable. The former encode information at a frame rate identical to the observation, while the latter globally governs the entire sequence. This introduces an inductive bias and facilitates unsupervised disentanglement of the underlying local and global factors. In this paper, we show that the vanilla DSAE suffers from being sensitive to the choice of model architecture and capacity of the dynamic latent variables, and is prone to collapse the static latent variable. As a countermeasure, we propose TS-DSAE, a two-stage training framework that first learns sequence-level prior distributions, which are subsequently employed to regularise the model and facilitate auxiliary objectives to promote disentanglement. The proposed framework is fully unsupervised and robust against the global factor collapse problem across a wide range of model configurations. It also avoids typical solutions such as adversarial training which usually involves laborious parameter tuning, and domain-specific data augmentation. We conduct quantitative and qualitative evaluations to demonstrate its robustness in terms of disentanglement on both artificial and real-world music audio datasets.
公開日: Thu, 12 May 2022 04:11:25 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Towards Robust Unsupervised Disentanglement of Sequential Data — ロバスト非教師によるシークエンシャルデータのアンタングル化に向けて 0.47
A Case Study Using Music Audio 音楽音声を用いた事例研究 0.84
Yin-Jyun Luo1∗ , Sebastian Ewert2 and Simon Dixon1 1Centre for Digital Music, Queen Mary University of London Yin-Jyun Luo1∗ , Sebastian Ewert2 and Simon Dixon1 1Centre for Digital Music, Queen Mary University of London
訳抜け防止モード: Yin - Jyun Luo1∗, Sebastian Ewert2, Simon Dixon1 1Centre for Digital Music ロンドンのクイーンメアリー大学
0.87
2Spotify yin-jyun.luo@qmul.ac .uk, sewert@spotify.com, s.e.dixon@qmul.ac.uk 2spotify yin-jyun.luo@qmul.ac .uk, sewert@spotify.com, s.e.dixon@qmul.ac.uk 0.27
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] D S . ] d s である。 0.49
s c [ 1 v 1 7 8 5 0 sc [ 1 v 1 7 8 5 0 0.34
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Disentangled sequential autoencoders (DSAEs) represent a class of probabilistic graphical models that describes an observed sequence with dynamic latent variables and a static latent variable. 概要 Disentangled Sequence Autoencoders (DSAE) は、動的潜伏変数と静的潜伏変数を持つ観測シーケンスを記述する確率的グラフィカルモデルのクラスである。 0.63
The former encode information at a frame rate identical to the observation, while the latter globally governs the entire sequence. 前者は観察と同一のフレームレートで情報を符号化し、後者は全シーケンスをグローバルに制御する。 0.73
This introduces an inductive bias and facilitates unsupervised disentanglement of the underlying local and global factors. これは帰納バイアスを導入し、根底にある局所的および大域的要因の教師なしの解離を促進する。 0.38
In this paper, we show that the vanilla DSAE suffers from being sensitive to the choice of model architecture and capacity of the dynamic latent variables, and is prone to collapse the static latent variable. 本稿では,バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であり,静的潜伏変数を崩壊させる傾向にあることを示す。 0.64
As a countermeasure, we propose TS-DSAE, a two-stage training framework that first learns sequence-level prior distributions, which are subsequently employed to regularise the model and facilitate auxiliary objectives to promote disentanglement. そこで,本研究ではts-dsaeを提案する。ts-dsaeは,まずシーケンスレベルの事前分布を学習し,その後にモデルの正則化と補助目標の促進に活用し,絡み合いを促進する2段階学習フレームワークである。 0.60
The proposed framework is fully unsupervised and robust against the global factor collapse problem across a wide range of model configurations. 提案されたフレームワークは完全に教師なしで、幅広いモデル構成にわたるグローバルファクタ崩壊問題に対して堅牢である。 0.62
It also avoids typical solutions such as adversarial training which usually involves laborious parameter tuning, and domainspecific data augmentation. また、通常、激しいパラメータチューニングやドメイン固有のデータ拡張を含む逆トレーニングのような典型的なソリューションも避ける。 0.62
We conduct quantitative and qualitative evaluations to demonstrate its robustness in terms of disentanglement on both artificial and real-world music audio datasets.1 人工および実世界のオーディオデータセットにおける不連続性の観点からのロバスト性を示すために定量的・質的評価を行う。1 0.53
1 Introduction From a probabilistic point of view, representation learning involves a data generating process governed by multiple explanatory factors of variation [Bengio, 2013]. 1 確率論的観点からの紹介 表現学習は,多変量の説明的要因によって制御されるデータ生成プロセスを伴う [bengio, 2013]。 0.85
The goal of learning a disentangled representation is to extract the underlying factors such that perturbations of one factor only change certain attributes of the observation. 不整合表現を学習する目的は、ある要因の摂動が観測の特定の属性だけを変えるような基礎的要因を抽出することである。
訳抜け防止モード: 行き詰まった表現を学ぶ目的は 1つの因子の摂動が観察の特定の属性だけを変えるような基礎となる因子を抽出する。
0.78
For example, one can disentangle object identity from its motion in video [Denton and Birodkar, 2017], separate sentiment from content in natural language [Fu et al , 2017], model style and linguistic 例えば、ビデオ[denton and birodkar, 2017]では、オブジェクトのアイデンティティを動きから切り離し、自然言語の内容から感情を分離することができる [fu et al, 2017]、モデルスタイルと言語 0.81
∗Contact Author 1The implementation and audio samples are accessible from ∗Contact Author 1 実装とオーディオサンプルはアクセス可能である 0.86
https://github.com/y jlolo/dSEQ-VAE. https://github.com/y jlolo/dSEQ-VAE.com 0.17
Figure 1: System diagrams of Two-Stage DSAE. 図1: 2段階DSAEのシステム図。 0.81
Left: The constrained training stage where the local modules are frozen. 左: ローカルモジュールが凍結される、制約付きトレーニングステージ。 0.74
Right: The stage of informed-prior training where the global latent is regularised by the associated posterior learnt from the first stage. 右:第1段階から学習した後部学習者によってグローバル潜伏者が正規化される情報優先訓練の段階。 0.69
The dashed arrows denote broadcast along the time-axis. 矢印は時間軸に沿って放送される。 0.71
information independently in speech [Hsu et al , 2017], and learn distinct representations for genre in music [Brunner et al., 2018]. 音声[hsu et al , 2017]で独立して情報を収集し,音楽ジャンルの異なる表現 [brunner et al., 2018] を学ぶ。 0.78
In this sense, disentangled representation promotes model interpretability by exposing semantically meaningful features, and enables controllable data generation by feature manipulation. この意味では、不等角表現は意味的に意味のある特徴を露呈することでモデル解釈性を促進し、特徴操作による制御可能なデータ生成を可能にする。 0.56
While supervised learning simplifies training processes, label scarcity for various problems of interest leads to a need for unsupervised techniques. 教師付き学習はトレーニングプロセスを単純化する一方で、関心のあるさまざまな問題に対するラベルの不足は教師なしのテクニックの必要性につながる。 0.46
However, as shown by Locatello et al. しかし、locatelloらによって示されるように。 0.44
[2019], disentanglement can only be achieved with either supervision or inductive biases – and hence any unsupervised system for learning disentangled representations has to involve the latter. [2019]では、非絡み合いは監督的または帰納的バイアスによってのみ達成されるため、非絡み合い表現を学習するための教師なしのシステムは後者を巻き込む必要がある。 0.49
For sequential data, we can aim to disentangle global from local information by leveraging such a structural bias. 逐次データの場合、そのような構造バイアスを利用して、グローバルな情報をローカル情報から切り離すことができる。 0.65
In this case, the observation is generated by a static (global) latent variable associated with the entire sequence, and a series of dynamic (local) latent variables varying over time [Hsu et al., 2017; Li and Mandt, 2018; Khurana et al , 2019; Zhu et al , 2020; Vowels et al , 2021; Han et al , 2021; Bai et al , 2021]. この場合、観測は、全配列に付随する静的な(グローバルな)潜伏変数と、時間とともに変化する動的(局所的な)潜伏変数によって生成される(Hsu et al., 2017; Li and Mandt, 2018; Khurana et al , 2019; Zhu et al , 2020; Vowels et al , 2021; Han et al , 2021; Bai et al , 2021]。 0.81
The disentangled sequential autoencoder (DSAE) [Li and Mandt, 2018] is a minimalistic framework that implements the concept above using a probabilistic graphical model, as illustrated in Fig 2. 分散型シーケンシャルオートエンコーダ (DSAE) [Li and Mandt, 2018] は、図2に示すように、確率的グラフィカルモデルを用いて上記の概念を実装する最小限のフレームワークである。 0.82
However, as we show in Section 6, DSAE does not robustly achieve disentanglement but heavily relies on a problem-specific architecture design and parameter tuning. しかし,第6節で示すように,DSAEは乱れを頑健に達成するのではなく,問題固有のアーキテクチャ設計とパラメータチューニングに大きく依存している。 0.70
Several works have built upon DSAE, extending it with either self-supervised learning techniques based on domain-specific いくつかの作品がDSAE上に構築され、ドメイン固有性に基づく自己教師型学習技術で拡張されている 0.58
英語(論文から抽出)日本語訳スコア
data-augmentation [Bai et al , 2021], alternative distance measures for the distributions involved which require extensive hyperparameter tuning or estimations susceptible to the instability resulting from adversarial training [Han et al , 2021], or a rather complex parameterisation of a computationally heavy generative model [Vowels et al , 2021]. data-augmentation [bai et al , 2021], 敵対的訓練(han et al , 2021])によって生じる不安定さに影響を受けやすい広範囲なハイパーパラメータチューニングや推定を必要とする分布の代替距離尺度 [vowels et al , 2021], あるいは計算量重生成モデルのかなり複雑なパラメータ化 [vowels et al , 2021]。 0.81
In order to improve the robustness of DSAE, we propose TS-DSAE, a simple yet effective framework encompassing a two-stage training method as well as explicit regularisation to improve factor invariance and manifestation. dsaeのロバスト性を改善するために,二段階訓練法を包含する単純かつ効果的なフレームワークであるts-dsaeを提案する。
訳抜け防止モード: DSAEのロバスト性を改善するため,TS-DSAEを提案する。 2段階の訓練方法と明示的な正規化を含む単純で効果的なフレームワーク 因子の分散と顕在化を 改善するためです
0.76
The framework is completely unsupervised and free from any form of data augmentation or adversarial training (but could be combined with either in the future). このフレームワークは完全に教師なしで、いかなる形式のデータ拡張や敵対的トレーニングも含まない(ただし、将来的には組み合わせることができる)。 0.69
We use an artificial as well as a real-world music audio dataset to verify the effectiveness of the proposed framework over a wide range of configurations, and provide both quantitative and qualitative evaluations. 提案手法の有効性を,多種多様な構成で検証し,定量的・質的な評価を行うために,人工的および実世界の音楽オーディオデータセットを用いて検証する。 0.76
While the baseline models suffer from the collapse of the global latent space, TS-DSAE consistently provides reliable disentanglement (as measured by a classification metric), improves reconstruction quality with increased network capacity without compromising disentanglement, and is able to accommodate multiple global factors shared in the same latent space. ベースラインモデルがグローバル潜在空間の崩壊に苦しむ一方で、TS-DSAEは一貫して信頼性の高い不整合(分類基準によって測定される)を提供し、不整合を損なうことなくネットワーク容量を増大させ、同じ潜在空間で共有される複数のグローバル要因に対応することができる。 0.71
2 Disentangled Sequential Autoencoders DSAEs [Li and Mandt, 2018; Zhu et al , 2020; Bai et al , 2021; Han et al , 2021; Vowels et al , 2021] are a family of probabilistic graphical models representing a joint distribution 2 Disentangled Sequential Autoencoders DSAEs [Li and Mandt, 2018; Zhu et al , 2020; Bai et al , 2021; Han et al , 2021; Vowels et al , 2021] は共同分布を表す確率的図形モデルである。 0.83
pθ(x1:T , z1:T , v) = p(v) pθ(x1:T , z1:T , v) = p(v) 0.50
pθ(xt|zt, v)pθ(zt|z<t), pθ(xt|zt, v)pθ(zt|z<t) 0.42
(1) T(cid:89) (1) T(第89回) 0.52
t=1 torised q” simplifies qφ(z1:T|x1:T , v) =(cid:81)T t=1 である。 torised q" は qφ(z1:T|x1:T , v) =(cid:81)T を単純化する 0.51
Figure 2: The two models proposed in the original DSAE. 図2:オリジナルのDSAEで提案された2つのモデル。 0.73
The red arrows highlight the enriched inference networks qφ(·). 赤い矢印は豊かな推論ネットワーク qφ(·) を強調する。 0.75
We investigate the two configurations illustrated in Fig 2. 図2に示す2つの構成について検討する。 0.69
“full q” follows the inference networks written in Eq (2), and qφ(zt|x1:T , v) can be implemented via RNNs; while “fact=1 qφ(zt|xt) with an FCN shared across the time-axis, which is independent of v. In both cases, qφ(v|x1:T ) can be parameterised by either RNNs or FCNs. We will use “factorised q” for the exposition in Section 3. ファクト=1 qφ(zt|xt) と FCN は v とは独立な時間軸で共有されるが、いずれの場合も qφ(v|x1:T ) は RNN または FCN によってパラメータ化される。
訳抜け防止モード: 完全 q ” は eq (2 ) と qφ(zt|x1 : t,) で書かれた推論ネットワークに従う。 ファクト=1 qφ(zt|xt ) と fcn を時間軸で共有する。 どちらの場合においても、qφ(v|x1 : t ) は rnn または fcns によってパラメータ化することができる。 第3節の展示には「因子化されたq」を使用します。
0.81
A major challenge is that optimising Eq (2) does not prevent the local latent z1:T from capturing all the necessary information for reconstructing the given input sequence x1:T . 主な課題は、Eq (2) の最適化が、与えられた入力シーケンス x1:T を再構築するために必要なすべての情報を取得するのを防ぐことである。 0.74
This is referred to as the “shortcut problem” [Lezama, 2019], where the model completely ignores some latent variables (the global in this case) and only utilises the rest. これは“ショートカット問題” (shortcut problem) [lezama, 2019] と呼ばれ、モデルが潜在変数(この場合グローバル変数)を完全に無視し、残りのみを使用する。 0.76
In Section 6, we show that, without carefully tuning the hyperparameters, the vanilla DSAE is prone to only exploit z1:T and ignore v. 第6節では、過度パラメータを慎重に調整することなく、バニラDSAEはz1:Tしか利用せず、vを無視する傾向にあることを示す。 0.60
3 Method We propose TS-DSAE, which constitutes a two-stage training framework and explicitly imposes regularisation for factor invariance as well as factor rendering in order to encourage disentanglement, as illustrated in Fig 1 which depicts the simplified inference network (factorised q) to avoid clutter. 3) 提案手法では,二段階学習フレームワークを構成するts-dsaeを提案し,因子不変性および因子レンダリングのための正規化を明示的に課し,乱れを助長する。
訳抜け防止モード: 3 方法 TS-DSAE を2段階トレーニングフレームワークとして提案する。 そして、混乱を促すために、因子の分散と因子のレンダリングを明示的に規則化します。 クラッタを避けるために単純化された推論ネットワーク(分解q)を描写した図1に示されているように。
0.62
3.1 Two-Stage Training Framework The shortcut problem mentioned in Section 2 can be ascribed to the simplicity of the uni-modal prior p(v) which is not expressive enough to capture the multi-modal global factors, i.e. qφ(v|x1:T ) is over-regularised. 3.1 2段階訓練フレームワーク 第2節で述べたショートカット問題は、マルチモーダルな大域的因子、すなわち qφ(v|x1:T) を捉えるのに十分表現できない一様前の p(v) の単純さに言及することができる。 0.73
The issue is further exaggerated by the relatively capacity-rich local latent z1:T which are allowed to carry information at the frame resolution identical to x1:T . この問題は、x1:tと同一のフレーム解像度で情報を運ぶことができる比較的容量豊富な局所的潜在性z1:tによってさらに誇張される。 0.65
To mitigate the problem, we divide the training into two stages, constrained training and informed-prior training. この問題を軽減するために,訓練を制約付きトレーニングとインフォームド・プライオリティ・トレーニングの2段階に分けた。 0.66
Constrained training: During constrained training, we freeze some parameters of the local module after initialization including the local encoder and the transition network. 制約付きトレーニング: 制約付きトレーニングの間、ローカルエンコーダやトランジションネットワークを含む初期化後のローカルモジュールのパラメータを凍結する。 0.78
This way, the local latents zt resemble random projections from the input and thus are not optimised to hold the most important information to encode the input. このように、局所ラテント zt は入力からのランダム射影に似ており、入力を符号化するために最も重要な情報を保持するように最適化されていない。
訳抜け防止モード: このように、局所潜在子 zt は入力からランダム射影に類似する 最適化されてはいませんが 入力をエンコードする 最も重要な情報を保持するためです
0.66
That means, we strongly encourage the decoder to focus on the global latent v for reconstruction. つまり、デコーダは再建のためのグローバルな潜伏vに集中するよう強く促します。 0.59
As a result, qφ(v|x1:T ) is biased to capture the global factors that are shared across the entire sequence. 結果として、qφ(v|x1:T) は、全配列で共有される大域的因子を捉えるためにバイアスを受ける。
訳抜け防止モード: その結果、qφ(v|x1 : T )はバイアスを受ける。 シーケンス全体で共有される グローバルな要因を捉えます
0.83
From an optimisation perspective, this is equivalent to eliminating the second term (the KL terms for zt) from Eq (2). 最適化の観点からすると、これは Eq (2) から第二項 (zt の KL 項) を除去することと同値である。 0.73
Informed-prior training: The training proceeds to the second stage after C epochs of constrained training. インフォームド・プライアトレーニング(Informed-prior training): 制約されたトレーニングのC期以降、トレーニングは第2段階に進む。
訳抜け防止モード: インフォームド-事前訓練 訓練は, C期以降の第2段階に進む。
0.67
During this stage, all the model parameters are unfrozen and trained regularly using the full objective (Eq. この段階では、すべてのモデルパラメータは凍結され、完全な目的(eq)を使用して定期的にトレーニングされます。 0.61
(2)) with a modification. (2)修正を加えたもの。 0.67
where x1:T denotes the observed sequence with T time frames, z1:T is the sequence of local latent variables, and v refers In practice, pθ(zt|z<t) = to the global latent variable. ここで x1:T は T 時間フレームで観測された列を表し、z1:T は局所潜在変数の列を表し、v は実際には pθ(zt|z<t) = を大域潜在変数に言及する。 0.70
neural networks (RNNs), and pθ(xt|zt, v) is implemented using fully-connected networks (FCNs). ニューラルネットワーク(RNN)とpθ(xt|zt, v)は、完全接続ネットワーク(FCN)を用いて実装される。 0.74
The prior distribution N(cid:0)µθ(z<t), diag(σ2 θ (z<t))(cid:1) is parameterised by recurrent of v follows N(cid:0)0, 1(cid:1). 以前の分布 N(cid:0)μθ(z<t), diag(σ2 θ (z<t))(cid:1) は N(cid:0)0, 1(cid:1) に続く v の繰り返しによってパラメータ化される。 0.74
The model is trained to learn separate モデルは別々に学ぶように訓練されています 0.58
latent variables z1:T and v for the local and global factors, respectively, imposing an inductive bias for unsupervised disentanglement, which is otherwise impossible [Locatello et al., 2019]. 局所的因子と大域的因子の潜在変数 z1:t と v はそれぞれ、教師なしの不連続に対して帰納的バイアスを課すが、そうでなければ不可能である [locatello et al., 2019]。
訳抜け防止モード: 局所的および大域的因子に対する潜伏変数 z1 : T と v である。 それぞれ 教師なしの絡み合いに対して 誘導バイアスを課し さもなければ不可能だ[Locatello et al ., 2019 ].
0.73
The uni-modal prior p(v), however, poses a great challenge to learning an informative latent space, evidenced by our results in Section 6. しかしながら、ユニモーダル事前p(v)は、第6節の結果から証明された、有益な潜在空間を学ぶための大きな課題となる。 0.63
of Following the ですから 以下 その... 0.34
variational framework 変種 フレームワーク 0.66
autoencoders [Kingma and Welling, 2014], inference networks are introduced to optimise the evidence lower bound (ELBO): L(θ, φ; x1:T ) = Eqφ(z1:T ,v|x1:T ) 自己エンコーダ [Kingma and Welling, 2014] は、エビデンスローバウンド(ELBO)を最適化するために推論ネットワークを導入している: L(θ, φ; x1:T ) = Eqφ(z1:T ,v|x1:T ) 0.75
(cid:2) log pθ(x1:T , z1:T , v) − log qφ(z1:T , v|x1:T )(cid:3) (cid:2) log pθ(xt|zt, v)(cid:3) (cid:0)qφ(zt|x1:T , v)(cid:107)pθ(zt|z<t)(cid:1)(cid:3) (cid:2) log pθ(x1:T , z1:T , v) − log qφ(z1:T , v|x1:T ))(cid:3) (cid:3) log pθ(xt|zt, v)(cid:3) (cid:0)qφ(zt|x1:T , v)(cid:107)pθ(zt|z<t)(cid:1)(cid:3) 0.39
Eqφ(zt|x1:T ,v)qφ(v|x1:T ) Eqφ(zt|x1:T ,v)qφ(v|x1:T ) 0.38
T(cid:88) T(cid:88) (cid:2)DKL (cid:0)qφ(v|x1:T )(cid:107)p(v)(cid:1 ). T(cid:88) T(cid:88) (cid:2)DKL (cid:0)qφ(v|x1:T )(cid:107)p(v)(cid:1 )。 0.38
Eqφ(z<t|x1:T ,v) Eqφ(z<t|x1:T ,v) 0.43
− 1 T − DKL − 1 T − DKL 0.43
= 1 T t=1 = 1T t=1 である。 0.37
t=1 (2) t=1 である。 (2) 0.37
英語(論文から抽出)日本語訳スコア
In particular, instead of setting the global prior to N(cid:0)0, 1(cid:1) as 特に、大域を N(cid:0)0, 1(cid:1) の前に設定する代わりに、 0.73
in constrained training, we set: 制約のあるトレーニングでは 0.46
p(vi) = qφC (vi|xi p(vi) = qφC(vi|xi) 0.38
1:T ), 1:T )(cid:107)qφC (vi|xi 1:T)であった。 1:T )(cid:107)qφC (vi|xi) 0.47
(cid:0)qφ(vi|xi (cid:0)qφ(vi|xi) 0.31
1:T )(cid:1). 1:t(cid:1)。 0.76
Note that (3) where φC denotes the parameters of the global encoder at the C-th epoch. 注意 (3) φc は c 番目の時代における大域エンコーダのパラメータを表す。 0.61
That is, we have for each input sequence i a corresponding sequence-level prior that has been learnt from constrained training, whereby the last KL term in Eq (2) is replaced by DKL we differentiate qφ from qφC to emphasise that we take a “snapshot” of the global encoder qφC (·) at the C-th epoch, use the network to parameterise the sequence-specific prior, and continue training the global encoder qφ(·) which is initialised by φC. すなわち、各入力シーケンス i に対して、制約付きトレーニングから学習された対応するシーケンスレベル前値を持ち、Eq (2) における最後の KL 項を DKL に置き換えることで、qφ と qφC を区別し、C のグローバルエンコーダ qφC (·) の "スナップショット" を撮り、シーケンス固有の前値のパラメータ化にネットワークを使用し、φC によって初期化される大域エンコーダ qφ(·) のトレーニングを継続する。 0.83
In other words, we keep training the posterior but “anchor” the distribution of each sequence i to its associated prior which is the posterior obtained from constrained training and is supposed to capture the sequence-level global factors. 言い換えれば、私たちは、制約されたトレーニングから得られた後段であり、シーケンスレベルのグローバルファクターをキャプチャするはずの各シーケンスiと関連する前段の分布を“アンカー”しながら、後段のトレーニングを続けます。 0.72
This way, although the local module is introduced over the training, the global latent variables of sequences no longer commonly share the uni-modal prior, thereby mitigating the effect of over-regularisation. このように、局所モジュールはトレーニングを通じて導入されるが、シーケンスのグローバル潜在変数は、もはやユニモーダルを前もって共有しないため、過剰正規化の効果を緩和する。 0.63
1:T 1:T ) and vi ∼ qφ(v|xi ∼ pθ(x1:T|zi 1:T 1:T ) および vi > qφ(v|xi > pθ(x1:T|zi) 0.56
In the next section, we further propose four additional loss terms to encourage disentanglement of the global and local latent variables. 次の節では、グローバル変数とローカル変数の絡み合いを促進するために、さらに4つの損失項を提案する。 0.58
3.2 Factor Invariance and Manifestation Consider the following scheme of inference, replacement, de1:T ∼ coding, and inference: given the inferred variables zi qφ(z1:T|xi 1:T ), we can replace vi with vj inferred from another sequence j, and decode ∼ xvi→vj qφ(z1:T|xvi→vj If z1:T and v have been successfully disentangled, the difference between zvi→vj 1:T would be minimal because replacing the global factor should not affect the subsequently inferred local factor; and vvi→vj should be close to vj in order to faithfully manifest the swapping. 3.2 Factor Invariance and Manifestation Consider the following scheme of inference, replacement, de1:T ∼ coding, and inference: given the inferred variables zi qφ(z1:T|xi 1:T ), we can replace vi with vj inferred from another sequence j, and decode ∼ xvi→vj qφ(z1:T|xvi→vj If z1:T and v have been successfully disentangled, the difference between zvi→vj 1:T would be minimal because replacing the global factor should not affect the subsequently inferred local factor; and vvi→vj should be close to vj in order to faithfully manifest the swapping.
訳抜け防止モード: 3.2 因子の不変性及び操作性 次に掲げる推論方式を考える。 置換、de1 : T の符号化、推論 : 推定変数 zi qφ(z1 : T|xi 1 : T ) が与えられる 他の列 j から推論された vj に vi を置き換えることができ、z1 : T と v がアンタングル化に成功すれば、xvi→vj qφ(z1 : T|xvi→vj) を復号できる。 zvi→vj 1 : T の差は最小である グローバル因子の置き換えは、その後の推論された局所因子に影響を与えない vvi→vj は vj に近いものでなければならない。
0.69
Similarly, if we replace z1:T instead, difference between vzi 1:T and vi is expected to be small; and zzi 1:T . 同様に、z1:T を置き換えれば、vzi 1:T と vi の差は小さくなり、zzi 1:T は小さくなる。 0.71
We can impose the desired properties of factor invariance as well as the rendering of the target factors by introducing the following terms to Eq (2): 以下の項をeq (2) に導入することにより、因子不変性の所望の性質や対象因子のレンダリングを課すことができる。 0.80
1:T , vj). 1:t , vj) である。 0.80
We can then infer zvi→vj すると zvi→vj を推測できる 0.62
) and vvi→vj ∼ qφ(v|xvi→vj と vvi→vj > qφ(v|xvi→vj) 0.59
should be close to zj 1:T →zj 1:T zjに近いはず 1:T →zj 1:T 0.55
1:T →zj and zi 1:T →zj そして ジは 0.55
). 1:T 1:T ). 1:T 1:T 0.43
1:T 1:T 1:T 1:T 1:T 1:T 0.43
(4) (5) (6) (4) (5) (6) 0.42
)(cid:107)qφ(v|xj 【cid:107)qφ(v|xj】 0.63
1:T (cid:0)qφ(v|xvi→vj (cid:0)qφ(z1:T|xvi→vj (cid:0)qφ(v|xzi (cid:0)qφ(z1:T|xzi 1:T (cid:0)qφ(v|xvi→vj (cid:0)qφ(z1:T|xvi→vj (cid:0)qφ(v|xzi (cid:0)qφ(z1:T|xzi) 0.36
1:T →zj 1:T 1:T →zj 1:T 0.48
1:T 1:T 1:T →zj 1:T 1:T 1:T 1:T →zj 1:T 0.44
1:T )(cid:1), 1:T )(cid:1), 1:T )(cid:1), and 1:T )(cid:1). 1:t(cid:1), 1:t(cid:1), 1:t(cid:1), 1:t(cid:1), 1:t(cid:1)である。 0.73
)(cid:107)qφ(z1:T|xj 【cid:107】qφ(z1:t|xj】 0.61
)(cid:107)qφ(z1:T|xi )(cid:107)qφ(v|xi )(cid:107)qφ(z1:T|xi )(cid:107)qφ(v|xi) 0.34
− DKL − DKL − DKL − DKL DKL − DKL − DKL − DKL 0.36
1:T (7) By maximising these terms, we encourage invariance of the local and global latent variables through Eq (5) and Eq (6), respectively. 1:T (7) これらの項を最大化することにより、Eq (5) と Eq (6) を通して局所的および大域的潜在変数の不変性を促進する。 0.58
Meanwhile, posteriors of the replaced factors are regularised to follow the target posteriors through Eq (4) and Eq. 一方、置換された因子の後部は、Eq (4) および Eq を介して目標後部に従うように規則化される。 0.64
(7). In practice, we pair each input sequence i in a mini-batch with a randomly sampled input sequence j from the same minibatch, and perform the above-mentioned scheme of inference, (7). 実際、各入力シーケンスiを同じミニバッチからランダムにサンプリングされた入力シーケンスjとミニバッチでペアリングし、上記の推論スキームを実行する。 0.56
replacement, decoding, and inference. 置き換え、復号、推論 0.41
Note that we do not require any form of supervision or data-augmentation. 監視やデータ提供の形式は一切必要ありません。 0.53
While the above terms encourage meaningful behaviour, they can still be minimised with a trivial global latent space, which is undesired. 上記の用語は有意義な振る舞いを助長するが、それでも自明なグローバル潜在空間で最小化できるが、これは望ましくない。 0.58
Thus, the two-stage training plays a crucial role in obtaining robust disentanglement. したがって、2段階の訓練は強固な絡み合いを得る上で重要な役割を担っている。 0.60
Further, note that the individual terms above vary in terms of magnitude and thus importance to the gradient and so could benefit from balancing. さらに、上記の個々の用語は大きさによって異なり、勾配の重要性からバランスをとることができることに注意されたい。 0.65
However, we found scaling them unnecessary for the success of disentanglement, and leave this study for future work. しかし,解離の成功のためにスケーリングは不要であることに気付き,今後の研究にこの研究を委ねた。 0.67
To summarise, TS-DSAE constitutes a two-stage training framework that facilitates the exploitation of additional divergences to achieve robust unsupervised disentanglement, which we empirically verify in Section 6. 要約すると、TS-DSAEは2段階のトレーニングフレームワークを構成し、第6節で実証的に検証した、堅牢な非教師なしの絡み合いを実現するために、追加の分岐の活用を容易にする。 0.39
4 Related Work The assumption of a sequence being generated by a stationary global factor and a temporally changing local factor to achieve unsupervised disentanglement was used before. 4 関連研究 定常的大域的因子と時間的に変化する局所的因子が生成するシーケンスの仮定は、以前にも使用されていた。 0.72
FHVAE [Hsu et al , 2017] constructs a hierarchical prior where each input is governed by a sequence-level prior on top of a segmentlevel prior. fhvae [hsu et al , 2017] は、各入力がセグメントレベル前のシーケンスレベルによって管理される階層型プリアーを構築する。 0.82
Our two-stage training framework shares the spirit, with the main difference being that we leverage the strong bottleneck during the constrained training to naturally promote a global information-rich posterior which can be directly used as the sequence-level prior for the complete model training stage. 当社の2段階トレーニングフレームワークは,制約付きトレーニングにおいて強いボトルネックを生かして,完全なモデルトレーニングステージのシーケンスレベルとして直接使用可能な,グローバルな情報豊富な後部を自然に促進する,という考え方を共有しています。 0.77
On the other hand, FHVAE initialises and learns the prior from scratch, which lacks a stronger inductive bias and a discriminative objective function is reported to be helpful. 一方、FHVAEは、より強い帰納バイアスを欠き、差別的目的関数が有用であると報告されたスクラッチから初期化して学習する。 0.50
Also, learning of the sequence-level priors is amortised by the global encoder in our model, whereby memory consumption does not scale with the number of training data as in FHVAE. また,FHVAEのようなトレーニングデータ数でメモリ消費がスケールしないモデルにおいて,シーケンスレベルの事前学習はグローバルエンコーダによって記憶される。 0.79
The vanilla DSAE [Li and Mandt, 2018] is proposed as an elegant minimalistic model to achieve disentanglement, as shown in Fig 2. 図2に示すように、バニラDSAE[Li and Mandt, 2018]は、絡み合いを実現するためのエレガントな最小主義モデルとして提案されている。 0.66
However, we demonstrate its tendency to collapse the global latent space in Section 6, which is likely due to the over-simplified standard Gaussian prior. しかし、第6節で大域ラテント空間を崩壊させる傾向を示す。
訳抜け防止モード: しかし,第6節でグローバル潜在空間が崩壊する傾向を示す。 これはおそらく、単純化された標準であるGaussian以前のためだろう。
0.70
R-WAE [Han et al , 2021] minimises the Wasserstein distance between the aggregated posterior and the prior instead, estimated by maximum mean discrepancy or generative adversarial networks, either of which is not trivial in terms of parameter tuning and optimisation. R-WAE [Han et al , 2021] は、パラメータチューニングや最適化の点で自明ではない最大平均誤差または生成逆ネットワークによって推定される、集約後と前とのワッサーシュタイン距離を最小化する。 0.81
S3-VAE [Zhu et al , 2020] and C-DSVAE [Bai et al , 2021] exploit self-supervised learning and employ either domain-specific ad-hoc loss functions or data augmentation. s3-vae [zhu et al , 2020] と c-dsvae [bai et al , 2021] は自己教師付き学習を活用し、ドメイン固有のアドホック損失関数やデータ拡張機能を採用する。 0.60
The proposed TS-DSAE is free from any form of supervision, adversarial training, or domain-dependent data augmentation. 提案されたTS-DSAEは、いかなる種類の監督、敵訓練、ドメインに依存したデータ拡張も不要である。 0.41
VDSM adopts a pre-training stage as well as a scheme of KL-annealing to promote usage of the global latent space [Vowels et al , 2021], which is similar to our constrained training. VDSMは、我々の制約された訓練に類似したグローバル潜在空間(Vowels et al , 2021]の使用を促進するため、事前学習段階とKLアニール方式を採用する。 0.76
The main differences, however, are that we train only the global variable during “pre-trainig”, and avoid KLannealing to save the tuning efforts. しかし、主な違いは、”pre-trainig”の間にグローバル変数のみをトレーニングし、チューニングの労力を節約するためにKLannealingを避けることです。 0.72
Further, VDSM employs n decoders, each of which is responsible for a unique identity of a video object, where n is set manually depending on the dataset. さらに、VDSMはnデコーダを採用しており、それぞれが、データセットに応じてnを手動で設定するビデオオブジェクトのユニークなアイデンティティを担っている。 0.68
This makes it less general, requires rather heavy computation, and might complicate the optimisation process. これにより、より一般的ではなく、かなり重い計算を必要とし、最適化プロセスが複雑になる可能性がある。 0.55
Lezama [2019] proposes a progressive autoencoderbased framework to tackle the “shortcut problem” for static Lezama [2019]が静的な“ショートカット問題”に取り組むためのプログレッシブオートエンコーダベースのフレームワークを提案 0.75
英語(論文から抽出)日本語訳スコア
data. The framework first trains a network with a low capacity latent space in order to learn the factors of interest, and subsequently increases the latent space capacity to improve data reconstruction. データだ このフレームワークは、まず、関心の要因を学習するために低容量の潜伏空間を持つネットワークを訓練し、その後データ再構成を改善するために潜伏空間容量を増加させる。 0.66
The final model utilises supervision from human annotations to learn the factors of interest. 最終モデルは、人間のアノテーションからの監督を利用して、関心の要因を学習する。 0.53
Our two-stage training shares a similar idea, but differs in that TS-DSAE operates without any supervision and models sequential data. 当社の2段階トレーニングも同様のアイデアを共有していますが、TS-DSAEが監視やシーケンシャルなデータモデルなしで運用されている点には違いがあります。 0.50
Our constrained training stage is also reminiscent of multiview representation learning. 制約付きトレーニングステージもマルチビュー表現学習を思い出させる。 0.64
For example, VCCA [Wang et al., 2016] formulates a model that samples different views of a common object from distributions conditioned on a shared latent variable. 例えば、VCCA [Wang et al., 2016] は、共有潜在変数に条件付き分布から共通のオブジェクトの異なるビューをサンプリングするモデルを定式化する。 0.79
NestedVAE [Vowels et al , 2020] learns the common factors using staged information bottlenecks by training a low-level VAE given the latent space derived from a high-level VAE. NestedVAE [Vowels et al , 2020]は、高レベルのVAEから派生した潜伏空間を考慮に入れた低レベルのVAEをトレーニングすることにより、ステージド情報ボトルネックを用いて共通の要因を学習する。
訳抜け防止モード: NestedVAE [ Vowels et al, 2020 ] はステージ情報ボトルネックを用いて共通要因を学習する 高レベルのVAEから派生した潜伏空間が与えられた低レベルのVAEを訓練する。
0.63
In our model, given an input sequence, we treat multiple time frames as the different “views” of a common underlying factor which is the global factor. 私たちのモデルでは、入力シーケンスが与えられたとき、複数の時間フレームを、グローバルファクターである共通の要素の異なる“ビュー”として扱う。 0.72
There has been a lack of exploration in unsupervised disentangled representation for music audio. 音楽オーディオの教師なしの異端表現には、探究の欠如がある。 0.61
Both Luo et al [2020] and C´ıfka et al [2021] exploit self-supervised learning to decorrelate instrument pitch and timbre. luo et al [2020] と c ́fka et al [2021] は、楽器ピッチと音色を分離するために自己教師付き学習を利用する。
訳抜け防止モード: luo et al [2020 ] と c ́fka et al [ 2021 ] exploit self - supervised learning 楽器ピッチと音色を分離する。
0.70
Similar to our work, the latter models monophonic melodies. 私たちの作品と同様に、後者はモノフォニックメロディーをモデルにしている。 0.56
Yet, it employs pitch-shifting which is domain-dependent, and constrains the local capacity by learning discrete latent variables which might pose optimisation challenges. しかし、ドメインに依存しないピッチシフトを採用し、最適化問題を引き起こす可能性のある離散潜在変数を学習することで局所的な容量を制限する。 0.52
We maintain the simplicity of DSAE and improve the robustness in a simple yet effective way, which is not limited to any certain modality. 我々は、DSAEの単純さを維持し、単純で効果的な方法で堅牢性を向上させる。
訳抜け防止モード: 我々はDSAEの単純さを維持し、シンプルで効果的な方法で堅牢性を向上させる。 特定のモダリティに限ったものではありません
0.65
5 Experimental Setup 5.1 Datasets We consider both an artificial and a real-world music audio dataset. 5 実験的なセットアップ 5.1 データセット 人工と実世界のオーディオデータセットについて検討する。 0.66
The former facilitates the control over the underlying factors of variation, while the latter demonstrates applicability of the proposed model to realistic data. 前者は変動の根底にある要因の制御を容易にし、後者は提案したモデルが現実的なデータに適用可能であることを示す。 0.72
dMelodies: The artificial dataset is compiled by synthesising audio from monophonic symbolic music gathered from dMelodies [Pati et al , 2020]. dMelodies: この人工データセットは,dMelodies [Pati et al , 2020] から収集したモノフォニックシンボリック音楽から音声を合成することによってコンパイルされる。
訳抜け防止モード: dMelodies : 人工データセットはコンパイルされる dMelodies[Pati et al, 2020]から収集したモノフォニックシンボリック音楽からの音声合成
0.83
Each melody is a two-bar sequence with 16 eighth notes, subject to several global factors, i.e., tonic, scale, and octave, and local factors, i.e., direction of arpeggiation, and rhythm. それぞれのメロディは16音節の2バーシーケンスであり、音階、音階、オクターブといったいくつかの大域的な要素、および局所的な要因、すなわち発声方向、リズムを考慮に入れている。 0.69
In order to facilitate analysis, we normalise the global factors by considering only the melodies of C Major in the fourth octave. 解析を容易にするため,第4オクターブのCメジャーのメロディーのみを考慮し,グローバルな要因を標準化する。 0.79
We also discard melodies starting or ending with the rest note to avoid spurious amplitude values and boundaries during audio synthesis with FluidSynth.2 我々は、FluidSynth.2を用いた音声合成中に、急激な振幅値と境界を避けるために、残音で開始または終了するメロディを破棄する。
訳抜け防止モード: 残りの音符で メロディの開始か終了を破棄します fluidsynth.2による音声合成におけるスプリアス振幅値と境界を回避する
0.70
We randomly pick 3k samples from the remaining melodies which are then split into 80% training and 20% validation sets, and synthesise audio of sampling rate 16kHz using sound fonts of violin and trumpet from MuseScore General.sf3.3 The amplitude of each audio sample is normalised with respect to its maximum value. 残りのメロディーからランダムに3kサンプルを抽出し、80%のトレーニングと20%の検証セットに分割し、musescore generalのバイオリンとトランペットの音フォントを用いて16khzのサンプリング率を合成する。
訳抜け防止モード: 残りのメロディーからランダムに3kサンプルを選び、80パーセントのトレーニングと20パーセントの検証セットに分割します。 そして、musescore general.sf3.3からバイオリンとトランペットの音フォントを用いてサンプリング率16khzの音声を合成し、その最大値に対して各音声サンプルの振幅を正規化する。
0.73
The number of samples rendered with the two instruments is uniformly distributed. 2つの楽器で描画されたサンプルの数は均一に分配される。 0.66
URMP: For the real-world audio recordings, we select the violin and trumpet tracks from the URMP dataset [Li et al , 2019]. URMP: 実際のオーディオ録音では、URMPデータセットからヴァイオリンとトランペットのトラックを選択します [Li et al , 2019]。 0.68
We follow the preprocessing by Hayes et al [2021], where the amplitude of each audio recording, resampled to 16kHz, is normalised in a corpus-wide fashion for each instrument subset. 我々はHayes et al[2021]による前処理に従い、各オーディオ録音の振幅を16kHzに再サンプリングし、各楽器サブセットに対してコーパスワイドな方法で正規化する。 0.74
2https://www.fluidsy nth.org/ 3https://musescore.o rg/en/handbook 2https://www.fluidsy nth.org/ 3https://musescore.o rg/en/handbook 0.17
The audio samples are then divided into four-second segments, and segments with mean pitch confidence lower than 0.85 are discarded, as assessed by the full CREPE model [Kim et al , 2018], a state-of-the-art pitch extractor. そして、音声サンプルを4秒のセグメントに分割し、最先端ピッチ抽出器であるフルクレープモデル[kim et al , 2018]で評価した平均ピッチ信頼度0.85以下のセグメントを破棄する。 0.75
The process results in 1,545 violin and 534 trumpet samples in the training set, and 193 violin and 67 trumpet samples for validation. その結果、トレーニングセットで1,545本のヴァイオリンと534本のトランペットサンプル、193本のヴァイオリンと67本のトランペットサンプルが検証される。
訳抜け防止モード: その結果、トレーニングセットには1,545のヴァイオリンと534のトランペットサンプルが作られる。 ヴァイオリン193本 トランペット67本 検証用
0.64
Implementation Note that for both datasets, we expect the underlying local and global factors to be melody and instrument identity, respectively. 実施 両方のデータセットにおいて、基礎となるローカル要素とグローバル要素はそれぞれメロディと楽器のアイデンティティであることを期待しています。 0.60
We transform the audio samples and represent the data as log-amplitude mel-spectrogram with 80 mel filter banks, derived from a short-time Fourier transform with a 128ms Hann window and 16ms hop, leading to x1:T ∈ R80×251. 我々は、音声サンプルを変換し、80メルフィルタバンクのlog-amplitude mel-spectrogramとして表現し、128ms hannウィンドウと16ms hopを持つ短時間フーリエ変換から導出し、x1:t ∈ r80×251となる。 0.69
5.2 Architecture: We study the two models proposed in the original DSAE [Li and Mandt, 2018], “factorised q” and “full q” as shown in Fig 2. 5.2アーキテクチャ: 図2に示すように、オリジナルのDSAE(Li and Mandt, 2018), “factorized q” と “full q” の2つのモデルについて検討する。 0.79
We use net-[layers] to denote architectures of modules, where net indicates types of the network, and [layers] is a list specifying the numbers of neurons at each layer. ネットワークのタイプを示すモジュールのアーキテクチャを表現するためにnet-[layers]を使用し、[layers]は各レイヤのニューロン数を指定するリストである。 0.69
Tanh is used as the non-linear activation between layers of FCNs, and we use long short-term memory (LSTM) for RNNs. Tanh は FCN 層間の非線形アクティベーションとして利用されており,RNN に長寿命メモリ (LSTM) を用いる。 0.89
If a Gaussian parameterisation layer follows, we append the notation Gau-L which encompasses two linear layers with parameters w1 and w2 projecting the output hidden (h) ∈ RL, respectively, states h to µw1 (h) ∈ RL and log σ2 where the Gaussian variable living in an L-dimensional space ガウスのパラメータ化層が従うと、出力が隠された(h) ∈ RL を射影するパラメータ w1 と w2 の2つの線型層を含む表記の Gau-L が加わり、h から μw1 (h) ∈ RL と log σ2 となる。 0.82
is then sampled from N(cid:0)µw1(h), diag(σ2 N(cid:0)μw1(h), diag(σ2) からサンプリングされる 0.77
(h))(cid:1). (h))(cid:1)。 0.88
w2 For factorised q, we implement w2 因子化された q に対して 0.43
w2 the global encoder qφ(v|x1:T ) as FCN-[64,64]-Avg-Gau-16, where Avg denotes average pooling across the time-axis, and we keep the size of v fixed as 16 across our main experiments; and the local encoder qφ(z1:T|x1:T ) as FCN-[64,64]-Gau-{8,16,32}, where we investigate different sizes of z1:T . w2 グローバルエンコーダ qφ(v|x1:t ) を fcn-[64,64]-avg-gau-16 と定義し、avg は時間軸の平均プーリングを表し、v のサイズをメイン実験全体で 16 と定め、ローカルエンコーダ qφ(z1:t|x1:t ) を fcn-[64,64]-gau-{8,16,32} と定義し、z1:t の異なるサイズについて検討した。
訳抜け防止モード: w2 FCN-[64,64]-Avg - Gau-16, Avgは時間 - 軸 - の平均プールを表す。 Vのサイズは主要な実験で16に固定されています そして FCN-[64,64]-Gau-{8,16,32 } として局所エンコーダ qφ(z1 : T|x1 : T ) ここで、z1 : Tの異なるサイズについて調べる。
0.82
For the transition network pθ(zt|z<t), we use RNN-[32,32]-Gau-{8,16,32}. 遷移ネットワーク pθ(zt|z<t) に対して、RNN-[32,32]-ガウ-{8,16,32} を用いる。 0.72
The decoder pθ(xt|zt, v) is FCN-[64,64]-Gau-80 taking as input the concatenation of z1:T and time-axis broadcast v. Note that, following the convention of VAEs, the Gaussian uates the likelihood pθ(xt|zt, v) as the squared L2-norm between the output of the decoder and xt. デコーダ pθ(xt|zt, v) は、z1:t と時間軸放送 v の結合を入力として fcn-[64,64]-gau-80 である。
訳抜け防止モード: デコーダ pθ(xt|zt, v ) は FCN-[64,64]-Gau-80 であり、z1 : T の結合と時間軸放送v を入力とする。 VAEの慣例に従い、ガウス群は pθ(xt|zt,) を使用できる。 v ) はデコーダの出力と xt の間の正方形 L2-ノルムである。
0.76
qφ(z1:T|x1:T , v) qφ(z1:t|x1:t , v) 0.79
layer of the decoder parameterises N(cid:0)µw1(h), 1(cid:1) which eval- デコーダの層は n(cid:0)μw1(h), 1(cid:1) をパラメータ化する。 0.71
For that factorised to biRNN-[64,64]-Gau-{8,16,32} which takes input the concatenation of x1:T and time-axis broadcast v inferred from qφ(v|x1:T ). birnn-[64,64]-gau-{8,16,32} に因み、これは qφ(v|x1:t ) から推定される x1:t と時間軸放送 v の結合を入力とする。 0.63
biRNN denotes a bi-LSTM, where the outputs of the forward and backward LSTM are averaged along the time-axis before the Gaussian layer. biRNN は bi-LSTM を意味し、前向きと後向きのLSTM の出力はガウス層の前の時間軸に沿って平均される。 0.80
Both the transition network and decoder follow those of factorised q. 遷移ネットワークとデコーダはともに因子化されたqのそれに従う。 0.68
Optimisation: Our implementation is based on PyTorch v1.9.0 and we use ADAM [Kingma and Ba, 2015] with default parameters lr = 0.001, and [β1, β2] = [0.9, 0.999] without weight decay. 最適化: 私たちの実装はPyTorch v1.9.0に基づいており、デフォルトパラメータ lr = 0.001 と [β1, β2] = [0.9, 0.999] の ADAM [Kingma, Ba, 2015] を使っています。 0.73
We use a batch size of 128, and train the models for 4k epochs at most; we employ early stopping if Eq (2) obtained from the validation set stops improving for 300 epochs. 検証セットから得られたEq (2)が300エポックで改善しない場合,我々はバッチサイズ128を使用し,最大4kエポックでモデルをトレーニングする。
訳抜け防止モード: バッチサイズは128で、4Kエポックでモデルをトレーニングしています。 検証セットから得られたEq (2 ) が300エポックで改善しない場合、早期停止を用いる。
0.60
For the models adopting the proposed two-stage training frameworks presented in Section 3, we set the number of epochs for the first stage C = 300 for all cases, to which we find the performance insensitive. 第3節で提示された2段階のトレーニングフレームワークを採用するモデルでは、すべてのケースにおいて、最初のステージC = 300のエポックの数を設定しました。 0.66
of corresponds as qφ(v|x1:T ) 対応するもの qφ(v|x1:T ) 0.42
q, and full q; follows q と フルq; 以下の通り 0.49
英語(論文から抽出)日本語訳スコア
Figure 3: Macro F1 score of instrument classification derived from applying LDA to the global latent space. 図3:大域的潜在空間へのldaの適用から導かれた機器分類のマクロf1スコア。 0.57
Size of the local latent space increases from left to right columns, 8, 16, and 32, respectively. 局所潜在空間のサイズは、それぞれ左列から右列へ増加し、8, 16, 32となる。 0.74
See Section 6.1 for details. 詳細は6.1節を参照。 0.61
6 Experiments and Results We consider three baseline methods: 6 実験と結果 3 つの基準法を検討する。 0.68
1) DSAE; 2) DSAE-f, where we employ the constrained training and freeze the global encoder after C epochs; and 1)DSAE 2) dsae-fは,c期以降,制約付きトレーニングを採用し,グローバルエンコーダを凍結する。 0.53
3) TS-DSAE w/o regs, where we adopt the two-stage training framework without introducing the four terms from Section 3.2. 3)TS-DSAE w/o regsでは,3.2節の4項を導入することなく,2段階のトレーニングフレームワークを採用する。 0.64
We do not include the models mentioned in Section 4 [Zhu et al , 2020; Bai et al , 2021; Han et al , 2021] which is left for future work, because the main focus is to improve upon DSAE with minimum modifications, and thus provide a superior backbone model which can be complementary with the existing methods. 第4節(zhu et al , 2020; bai et al , 2021; han et al , 2021)に記載されたモデルは、最小限の変更でdsaeを改善することが主な目的であり、既存の手法を補完できる優れたバックボーンモデルを提供するため、将来の作業のために残されている。 0.71
Instrument Classification 6.1 We first evaluate disentanglement through the lens of instrument classification. 楽器分類 6.1 計器分類のレンズによる歪みの評価を最初に行った。 0.67
In particular, we train a linear discriminant analysis (LDA) classifier taking as inputs v ∼ qφ(v|x1:T ), the global latent variables sampled from a learnt model, derived from the training set, and evaluate its classification accuracy for instrument identity in terms of the macro F1-score on the validation set. 特に,学習モデルからサンプリングされた大域的潜在変数である線形判別解析(lda)分類器を入力として訓練し,その検証セット上のマクロf1-scoreを用いて機器識別の分類精度を評価する。 0.65
We pair each sequence i from the validation set with another sequence j recorded with the other instrument, and perform the scheme of inference, replacement, decoding, and inference. 検証セットから各シーケンスiを、他の機器で記録された他のシーケンスjとペアリングし、推論、置換、復号、推論のスキームを実行する。 0.67
Following the notation in Section 3.2, vvi→vj should be predictive of the instrument of sample j; while vzi 1:T should reflect the original instrument of sample i. 節3.2の表記に従うと、vvi→vj は標本 j の楽器を予測すべきであり、vzi 1:T は標本 i の楽器を反映すべきである。 0.65
We report three metrics including accuracy before the replacement (pre-swap), after replacing v (post-global swap), and after replacing z1:T (post-local swap). 置換前の精度(プレスワップ)、v置換後(グローバルスワップ)、z1:T置換後(ローカルスワップ後)の3つの指標を報告する。 0.73
Note that we use the mean parameters of the Gaussian posterior qφ(v|x1:T ) to train the LDA. ガウス後方 qφ(v|x1:T ) の平均パラメータを使って LDA を訓練することに注意。 0.71
1:T →zj The results are summarised in Fig 3. 1:T →zj 結果は図3にまとめられている。 0.66
The proposed TSDSAE (red), with either factorised or full q, is consistently located at the top right corner of the plot, across all the sizes of the local latent space. 提案された tsdsae (red) は因子化または完全 q のいずれかであり、プロットの右上隅に位置し、局所潜在空間のあらゆる大きさにわたっている。 0.68
This indicates its robust disentanglement as well as a linearly separable global latent space. これは、その強固な絡み合いと線形に分離可能な大域的潜在空間を示している。 0.54
From the left to right column, the competing methods DSAE-f (cyan) 左から右へ、競合するメソッドDSAE-f(シアン) 0.65
Figure 4: FAD (the lower the better) of reconstruction versus macro F1 score for instrument classification, evaluated using URMP. 図4: URMP を用いて評価した楽器分類において, 再建の FAD とマクロ F1 スコアの比較を行った。 0.74
See Section 6.2 for details. 詳細は6.2節を参照。 0.64
and TS-DSAE without the additional regularisations (orange) move from top right to left-hand side of the plot, showing the inclination for a collapsed global latent space with the increased local latent capacity. そして、追加の正規化(オレンジ)を伴わないts-dsaeはプロットの右上から左上へ移動し、局所的な潜在容量の増加とともに崩壊したグローバル潜在空間の傾きを示す。 0.68
Being located at lower left of the plot, DSAE (gray) attains the worst performance in most configurations. dsae (gray) はプロットの左下に位置するため、ほとんどの構成で最悪の性能を達成している。 0.72
This highlights the issue of positing the standard Gaussian prior in the global latent space. これは、グローバル潜在空間に先立って標準ガウスを仮定する問題を強調している。 0.66
The overall high pre-swap and low post-swap F1 especially towards high-dimensional zt implies that the decoder tends to ignore v, even though the mean parameter of qφ(v|x1:T ) is discriminative w.r.t. the instrument identity. 特に高次元 zt への全高スワップと低低スワップ F1 は、qφ(v|x1:T ) の平均パラメータが楽器の同一性に対して差別的であるにもかかわらず、デコーダが v を無視する傾向があることを示している。 0.64
The competing models appear to suffer the most from the size of zt as a large local latent space can easily capture all the necessary information for reconstruction. 競合するモデルは、大きな局所的潜在空間が再構成に必要な全ての情報を簡単に取得できるため、ztの大きさから最も被害を受けているように見える。 0.64
6.2 Reconstruction Quality We examine the trade-off between disentanglement and reconstruction in terms of Fr´echet Audio Distance (FAD) [Kilgour et al , 2019] which is reported to correlate with auditory perception. 6.2リコンストラクションの質について,聴覚知覚と相関が報告されているfr 'echet audio distance (fad) [kilgour et al , 2019] を用いて,不連続とリコンストラクションのトレードオフについて検討した。 0.56
We only report the results for URMP in Fig 4 as both datasets reach a similar summary. 両データセットが類似の要約に達すると、図4のURMP結果のみを報告します。 0.77
As expected, FAD is improved with increasing zt dimension. 予想通り、FADはzt次元の増大とともに改善される。 0.54
However, TS-DSAE is the only model that overcomes the trade-off, in the sense that competing models lose their ability to disentangle (move from right to left of the plot) with the improved FAD. しかし、TS-DSAEはトレードオフを克服する唯一のモデルであり、競合モデルが改良されたFADで(プロットの右から左へ移動する)アンタングル能力を失うという意味では、唯一のモデルである。 0.65
6.3 Raw Pitch Accuracy In this section, we evaluate z1:T by applying the full CREPE model [Kim et al , 2018] to audio re-synthesised from the melspectrogram. 6.3 Raw Pitch Accuracy この節では,メルスペクトログラムから再生した音声に完全なCREPEモデル(Kim et al , 2018)を適用することにより,z1:Tを評価する。 0.73
The conversion is done by InverseMelScale and GriffinLim accessible from torchaudio v0.9.0. 変換は InverseMelScale と GriffinLim が torchaudio v0.9.0 からアクセス可能である。 0.72
Using the notation from Section 3.2, we extract pitch contours from reconstructed samples (pre-swap), xvi→vj (post-global swap) which is supposed to mirror the pitch contour of xi 1:T , and xzi (post-local swap) which is supposed to follow the pitch contour of xj 1:T . 第3節2からの表記を用いて、再構成されたサンプル(pre-swap)、xi1:tのピッチ輪郭を反映するxvi→vj(post-global swap)、xj1:tのピッチ輪郭に従うxzi(post-local swap)からピッチ輪郭を抽出する。 0.70
Note that for models with trivial v, the accuracy of post-global swap will remain high as the decoder is independent of v. We extract pitch contours from the input data as the ground-truth and report the raw pitch accuracy (RPA) with a 50-cent threshold [Salamon et al , 2014]. 自明な v を持つモデルでは、デコーダが v から独立しているため、ポスト・グロバルスワップの精度は高いままであり、入力データからピッチ輪郭を抽出し、50セントの閾値で原ピッチ精度(RPA)を報告する(Salamon et al , 2014)。
訳抜け防止モード: 自明な v を持つモデルの場合、ポスト-グローバルスワップの精度は依然として高いままである。 デコーダは独立している 五 入力データからピッチ輪郭を地として抽出する 真実 The raw pitch accuracy (RPA) with a 50-cent threshold [ Salamon et al, 2014 ]。
0.73
1:T →zj 1:T 1:T →zj 1:T 0.48
1:T 1:T 1:T 1:T 0.43
英語(論文から抽出)日本語訳スコア
Figure 5: RPA assessed using CREPE on URMP. 図5: URMP上でCREPEを使用して評価されたRPA。 0.62
We report the results with URMP in Fig 5. 図5のURMPによる結果について報告する。 0.64
TS-DSAE consistently improves with the increasing size of zt in terms of RPA. TS-DSAE は RPA の点で zt の増大とともに常に改善される。 0.70
Except for post-local swap, TS-DSAE performs comparably with the competing models towards the larger zt, and achieves disentanglement at once. ポストローカルスワップを除き、ts-dsaeはより大きなztに向かって競合するモデルと互換性があり、同時に絡み合いを実現する。 0.51
6.4 Richer Decoders To mitigate the trade-off, we further construct and evaluate a richer decoder where the reconstruction of xt is conditioned on z1:T , i.e., the entire sequence of local latent variables, instead of zt. 6.4リッチデコーダ トレードオフを軽減するため、xt の再構成が zt ではなく、z1:t で条件付けされたリッチデコーダを更に構築し、評価する。
訳抜け防止モード: 6.4 よりリッチなデコーダ 取引を緩和する - オフ、さらに構築する そして、z1 : T, に xt の再構成が条件付けられたよりリッチなデコーダを評価する。 ztではなく、ローカル潜伏変数のシーケンス全体である。
0.68
We set the size of zt to 16, and the inference network to factorised q, and compare DSAE, TS-DSAE, and the TS-DSAE augmented with the enriched decoder. 我々は、ztを16に設定し、推論ネットワークをqに分解し、DSAE、TS-DSAE、TS-DSAEを拡張デコーダと比較した。 0.58
As shown in Fig 6, the enriched model maintains the perfect accuracy for instrument classification for both datasets, while improving FAD over its counterpart with the factorised decoder. 図6に示すように、強化されたモデルは、両方のデータセットの計測器分類の完全な精度を維持しつつ、分解されたデコーダよりもFADを改善している。 0.65
Note that using dMelodies, the model outperforms DSAE equipped with the factorised decoder in terms of FAD. 注意すべき点は、dMelodiesを使用することで、このモデルはFADの点でDSAEの分解デコーダよりも優れていることである。
訳抜け防止モード: dMelodiesを使うことに注意。 このモデルは、FADの点でDSAEに分解デコーダを備えている。
0.61
We leave the evaluation for the full range of configurations for future work, including autoregressive decoders that could cause posterior collapse even for vanilla VAEs. 我々は,バニラVAEにおいても後部崩壊を引き起こす可能性のある自己回帰デコーダを含む,将来の作業のための完全な構成の評価を残している。 0.67
6.5 Multiple Global Factors We now consider both the fourth and fifth octaves when synthesising the dMelodies dataset, introducing octave number as the other global factor of variation in addition to instrument identity. 6.5 多重グローバルファクタ dMelodiesデータセットを合成する際には,計器識別に加えてオクターブ数を他のグローバルファクターとして導入し,第4オクターブと第5オクターブの両方を考慮する。 0.67
We train the decoder-enriched TS-DSAE described in Section 6.4, and show the results in Fig 7. 第6.4節で記述したデコーダ強化TS-DSAEを訓練し、その結果を第7節で示す。 0.57
In particular, we replace v inferred from the source at the lower left, with that derived from one of the three targets displayed in the top row, and generate novel samples shown from the second to last columns of the bottom row. 特に、左下のソースから推定されるvを、上行に表示された3つのターゲットのうちの1つから派生したものに置き換え、下行の2番目の列から最後の列に示す新しいサンプルを生成する。 0.75
Figure 6: FAD (the lower the better) against disentanglement in terms of instrument classification. 図6: fad (lower the better) 楽器分類の用語における絡み合いに対する反対。 0.65
Figure 7: Global latent replacement using the top three samples as the targets and the sample at the bottom left as the source. 図7: 上位3つのサンプルをターゲットとして、左下のサンプルをソースとして使用するグローバル潜在型置換。 0.84
We use {i, o, m} to denote the instrument, octave, and melody of each sample, respectively. 各サンプルの楽器、オクターブ、メロディを表すためにそれぞれ {i, o, m} を用いる。 0.65
For example, the source {i1, o1, m1} and the first target {i2, o1, m2} share the same octave but differ in the instrument, characterised by the spectral distribution along the frequency axis. 例えば、ソース {i1, o1, m1} と第1ターゲット {i2, o1, m2} は同じオクターブを共有するが、周波数軸に沿ったスペクトル分布によって特徴づけられる楽器が異なる。 0.76
As a result of replacing v, the target instrument i2 is manifested in the outcome {i1→2, o1, m1}, while the octave remains unchanged. v を置換した結果、ターゲット機器 i2 は結果 {i1→2, o1, m1} に現れるが、オクターブは変化しない。 0.70
Similarly, the second target {i1, o2, m3} differs from the source with the octave, characterised by the level of pitch contour; therefore, swapping v only transforms the octave for the output {i1, o1→2, m1}. 同様に、第2のターゲット {i1, o2, m3} はピッチ輪郭のレベルによって特徴づけられるオクターブとソースと異なるため、v の交換は出力 {i1, o1→2, m1} に対してのみオクターブを変換する。 0.77
Finally, the sample {i1→2, o1→2, m1} results from using the target {i2, o2, m4} that does not share any of the attributes with the source, where both the instrument and octave are converted. 最後に、サンプル {i1→2, o1→2, m1} は、ターゲット {i2, o2, m4} を用いて、楽器とオクターブの両方が変換されるソースと属性を共有しない。 0.77
Importantly, the source melody m1 remains intact in the three transformed samples, suggesting the global-local disentanglement. 重要なことに、ソースメロディm1は3つの変換されたサンプルに残っており、グローバルな局所的不絡合が示唆されている。
訳抜け防止モード: 重要なことに、ソースメロディm1は3つの変換されたサンプルに残されている。 グローバル - ローカルな絡み合い。
0.50
7 Conclusion and Future Work 7 結論と今後の課題 0.78
We have proposed TS-DSAE, a robust framework for unsupervised sequential data disentanglement, which has been shown to consistently work over a wide range of settings. 我々はTS-DSAEを提案する。TS-DSAEは、教師なしシーケンシャルなデータ分散のための堅牢なフレームワークであり、広範囲な設定で一貫して動作することが示されている。
訳抜け防止モード: 我々は、教師なしシーケンシャルデータ分離のための堅牢なフレームワークであるTS-DSAEを提案している。 様々な設定で一貫して機能することが示されています
0.53
Our evaluation focuses on the ability to robustly achieve disentanglement, and we leave evaluations on multi-modal data generation from unconditional prior sampling for future work. 本評価は,不条件先行サンプリングによるマルチモーダルデータ生成の評価を残し,不連続を頑健に達成する能力に焦点をあてた。 0.69
We would also like to verify the applicability of TS-DSAE to modalities beyond the music audio datasets. また、TS-DSAEが音楽オーディオデータセット以外のモダリティに適用可能であることを検証したい。
訳抜け防止モード: 私たちも 音楽オーディオデータセット以外のモダリティに対するTS-DSAEの適用性を検証する。
0.75
Despite the drastic increase in robustness, the difficulty of balancing disentanglement and reconstruction remains challenging [Lezama, 2019]. 頑丈さの急激な増加にもかかわらず、絡み合いと再建のバランスのとれ難い状況が続いている[レザマ, 2019]。 0.56
Scaling the regularisation terms differently might be helpful as mentioned in Section 3.2. 規則化用語の異なるスケーリングは、セクション3.2で述べたように役に立ちます。 0.54
Moreover, DSAEs probabilistic graphical model forces the input sequence to have a single global latent variable fixed over time, which could be too restrictive for more general use cases where sequences do not have stationary factors but ones that evolve slowly over time. さらに、DSAEの確率的グラフィカルモデルは、入力シーケンスが時間とともに固定された単一のグローバル潜在変数を持つように強制する。
訳抜け防止モード: さらに、DSAEの確率的グラフィカルモデルは、入力シーケンスに時間とともに単一のグローバル潜在変数を固定するように強制する。 より一般的なユースケースでは 配列は定常的な要素を持たないが、時間とともにゆっくりと進化する。
0.74
Therefore, adopting a hierarchy of latent variables encoding information at low to high frame rates [Saxena et al , 2021] can be a favorable relaxation of DSAEs. したがって、低フレームレート(Saxena et al , 2021)で情報を符号化する潜伏変数の階層を採用することは、DSAEの緩和に好適である。 0.76
A potential extension of our two-stage training is to have multiple stages of constrained training with progressively larger network capacity, thereby accommodating the said hierarchy, which can also be seen as a temporal extension of Li et al. 2段階のトレーニングの潜在的な拡張は、ネットワーク容量を徐々に増やした制約付きトレーニングの多段階を持ち、それによって、liやalの一時的な拡張と見なされる階層構造を適応させることです。 0.72
[2020]. [2020]. 0.34
英語(論文から抽出)日本語訳スコア
Acknowledgments The first author is a research student at the UKRI Centre for Doctoral Training in Artificial Intelligence and Music, supported by a scholarship from Spotify. 最初の著者は、Spotifyの奨学金によって支援されたUKRI Centre for Doctoral Training in Artificial Intelligence and Musicの研究学生である。 0.79
References Junwen Bai, Weiran Wang, and Carla Gomes. junwen bai、weiran wang、carla gomesを参照。 0.45
Contrastively In Ad- disentangled sequential variational autoencoder. 対照的に Ad- disentangled sequential variational autoencoder の略。 0.69
vances in Neural Information Processing Systems, 2021. 神経情報処理システム、2021年。 0.59
Yoshua Bengio. Deep learning of representations: Looking forward. ヨシュア・ベンジオ 表現の深層学習: 楽しみです。 0.51
In Proceeding of the International Conference on Statistical Language and Speech Processing, 2013. 2013年、国際統計言語・音声処理会議(international conference on statistical language and speech processing)を開催。 0.66
Gino Brunner, Andres Konrad, Yuyi Wang, and Roger Wattenhofer. ジノ・ブルナー、アンドレス・コンラッド、ユイ・ワン、ロジャー・ワッテンホーファー。 0.43
Midi-vae: Modeling dynamics and instrumentation of music with applications to style transfer. midi-vae:音楽のモデリングダイナミクスとインスツルメンテーションとスタイル転送への応用。 0.83
In Proceeding of the International Society for Music Information Retrieval, 2018. 国際音楽情報検索協会(International Society for Music Information Retrieval)が2018年に設立。 0.65
Ondˇrej C´ıfka, Alexey Ozerov andUmut S¸ims¸ekli, and Ga¨el Richard. アレクセイ・オゼロフ(alexey ozerov)、アレクセイ・オゼロフカ(alexey ozerov)、ガ・エル・リヒャルト(ga sel richard)。 0.28
Self-supervised vq-vae for one-shot music style transfer. ワンショット音楽スタイル転送のための自己教師付きvq-vae 0.43
In IEEE International Conference on Acoustics, Speech and Signal Processing, 2021. ieee international conference on acoustics, speech and signal processing, 2021 (英語) 0.37
Emily Denton and Vighnesh Birodkar. エミリー・デントンとヴィーネシュ・ビロドカール。 0.41
Unsupervised learning of disentangled representations from video. ビデオからの非教師なし表現の学習 0.63
In Advances in Neural Information Processing Systems, 2017. 2017年、ニューラル・インフォメーション・プロセッシング・システム(Neural Information Processing Systems, 2017)。 0.60
Zhenxin Fu, Xiaoye Tan, Nanyun Peng, Dongyan Zhao, and Rui Yan. Zhenxin Fu, Xiaoye Tan, Nanyun Peng, Dongyan Zhao, Rui Yan 0.33
Style transfer in text: Exploration and evaluation. テキスト中のスタイル転送:探索と評価。 0.75
In AAAI, 2017. 2017年、AAAI。 0.62
Jun Han, Martin Renqiang Min, Ligong Han, Li Erran Li, and Xuan Zhang. ジュン・ハン、マルティン・レンチアン・ミン、リゴン・ハン、リ・エルラン・リー、ジュアン・チャン。 0.44
Disentangled recurrent wasserstein autoencoder. disentangled recurrent wasserstein autoencoder(英語) 0.71
International Conference on Learning Representations, 2021. 英語) international conference on learning representations, 2021 0.83
Ben Hayes, Charalampos Saitis, and Gy¨orgy Fazekas. Ben Hayes氏、Charalampos Saitis氏、Gy sorgy Fazekas氏。 0.34
Neural waveshaping synthesis. ニューラルウェーブハッピング合成 0.35
In Proceeding of the International Society for Music Information Retrieval, 2021. 国際音楽情報検索協会(international society for music information retrieval, 2021)の略称。 0.67
Wei-Ning Hsu, Yu Zhang, and James Glass. wei-ning hsu、yu zhang、james glass。 0.49
Unsupervised learning of disentangled and interpretable representations from sequential data. 逐次データからの不整合および解釈可能な表現の教師なし学習 0.59
In Advances in Neural Information Processing Systems, 2017. 2017年、ニューラル・インフォメーション・プロセッシング・システム(Neural Information Processing Systems, 2017)。 0.60
Sameer Khurana, Shafiq Rayhan Joty, Ahmed Ali, and James Glass. Sameer Khurana、Shafiq Rayhan Joty、Ahmed Ali、James Glass。 0.64
A factorial deep markov model for unsupervised disentangled representation learning from speech. 音声からの非教師付き非教師付き表現学習のための因子的ディープマルコフモデル 0.50
In Proceeding of the International Conference on Acoustics, Speech and Signal Processing, 2019. 2019年、国際音響・音声・信号処理会議を開催。 0.56
Kevin Kilgour, Mauricio Zuluaga, Dominik Roblek, and Matthew Sharifi. Kevin Kilgour、Mauricio Zuluaga、Dominik Roblek、Matthew Sharifi。 0.68
Fr´echet audio distance: A reference-free metric for evaluating music enhancement algorithms. fr ′echet audio distance:音楽エンハンスメントアルゴリズムを評価するための参照フリーなメトリクス。 0.74
In Proceeding of INTERSPEECH, 2019. 平成19年(2019年)、インタースパイチ開始。 0.38
Jong Wook Kim, Justin Salamon, Peter Qi Li, and Juan Pablo Bello. Jong Wook Kim、Justin Salamon、Peter Qi Li、Juan Pablo Bello。 0.71
Crepe: A convolutional representation for pitch estimation. Crepe: ピッチ推定のための畳み込み表現。 0.68
2018 IEEE International Conference on Acoustics, Speech and Signal Processing, 2018. 2018 ieee international conference on acoustics, speech and signal processing, 2018(英語) 0.40
Diederik P. Kingma and Jimmy Ba. ディデリック・P・キングマとジミー・バ 0.45
Adam: A method for Adam: メソッドです。 0.69
stochastic optimization. CoRR, 2015. 確率最適化。 2015年、CoRR。 0.76
Diederik P Kingma and Max Welling. ディエデリック・P・キングマとマックス・ウェリング。 0.38
Auto-encoding variational bayes. 自動エンコーディング変分ベイズ。 0.67
In Proceeding of the International Conference on Learning Representations, 2014. 2014年、国際学習表現会議(international conference on learning representations)を開催。 0.72
Jos´e Lezama. Overcoming the disentanglement vs reconstruction trade-off via Jacobian supervision. レザマ』に登場。 ジャコビアン監督による対立とレコンストラクションのトレードオフを克服する。 0.41
In Proceeding of the International Conference on Learning Representations, 2019. 平成19年(2019年)、国際学習表現会議を開催。 0.71
Yingzhen Li and Stephan Mandt. yingzhen liとstephan mandtだ。 0.66
Disentangled sequential autoencoder. 絡み合ったシーケンシャルオートエンコーダ。 0.60
In Proceeding of Machine Learning Research, 2018. 2018年、機械学習研究に携わる。 0.66
Bochen Li, Xinzhao Liu, Karthik Dinesh, Zhiyao Duan, and Gaurav Sharma. Bochen Li, Xinzhao Liu, Karthik Dinesh, Zhiyao Duan, Gaurav Sharma 0.34
Creating a multitrack classical music performance dataset for multimodal music analysis: Challenges, insights, and applications. マルチモーダル音楽分析のためのマルチトラッククラシック音楽パフォーマンスデータセットの作成:挑戦、洞察、アプリケーション。 0.78
IEEE Transactions on Multimedia, 2019. ieee transactions on multimedia、2019年。 0.58
Zhiyuan Li, Jaideep Vitthal Murkute, Prashnna Kumar Gyawali, and Linwei Wang. Zhiyuan Li, Jaideep Vitthal Murkute, Prashnna Kumar Gyawali, Linwei Wang 0.34
Progressive learning and disentanglement of hierarchical representations. 進化的学習と階層的表現の切り離し。 0.67
ArXiv, 2020. ArXiv、2020年。 0.87
Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar R¨atsch, Sylvain Gelly, Bernhard Sch¨olkopf, and Olivier Bachem. フランチェスコ・ロカテッロ、ステファン・バウアー、マリオ・ルシック、ガンナー・R・シャチュ、シルヴァン・ゲリー、ベルンハルト・シュ・ショルコプフ、オリヴィエ・バチェム。
訳抜け防止モード: Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar R satsch シルヴァン・ゲリー、ベルンハルト・シュ・オルコプフ、オリヴィエ・バシュム。
0.77
Challenging common assumptions in the unsupervised learning of disentangled representations. 不整合表現の教師なし学習における一般的な仮定を満たす。 0.46
In Proceeding of the International Conference on Machine Learning, 2019. 2019年 機械学習国際会議(international conference on machine learning)開催。 0.80
Yin-Jyun Luo, Kin Wai Cheuk, Tomoyasu Nakano, Masataka Goto, and Dorien Herremans. 隠慈雲、金和忠、中野知康、後藤政隆、鳥園ヘレマンズ。 0.44
Unsupervised disentanglement of pitch and timbre for isolated musical instrument sounds. 孤立した楽器の音のピッチと音色の教師なしの不連続 0.58
In Proceeding of the International Society for Music Information Retrieval, 2020. 国際音楽情報検索協会(International Society for Music Information Retrieval, 2020)設立。 0.73
Ashis Pati, Siddharth Gururani, and Alexander Lerch. Ashis Pati、Siddharth Gururani、Alexander Lerch。 0.33
dmelodies: A music dataset for disentanglement learning. dmelodies: 乱れ学習のための音楽データセット。 0.83
In Proceeding of the International Society of Music Information Retrieval, 2020. 国際音楽情報検索協会(International Society of Music Information Retrieval, 2020)の略。 0.68
Justin Salamon, Emilia G´omez, Daniel P. W. Ellis, and Ga¨el Richard. ジャスティン・サラモン、エミリア・g・オメス、ダニエル・p・w・エリス、ガエル・リチャード。 0.44
Melody extraction from polyphonic music signals: IEEE Signal Approaches, applications, and challenges. ポリフォニック音楽信号からのメロディ抽出:IEEE信号アプローチ、応用、課題 0.58
Processing Magazine, 2014. 2014年、雑誌出版。 0.71
Vaibhav Saxena, Jimmy Ba, and Danijar Hafner. ヴァイブハヴ・ザクセン、ジミー・バ、ダニヤル・ハフナー。 0.39
Clockwork variational autoencoders. 時計工 変分オートエンコーダ。 0.53
ArXiv, 2021. Matthew James Vowels, Necati Cihan Camg¨oz, and Richard Bowden. 同上、2021年。 マシュー・ジェームズ母音、ネカティ・チハン・カム・ショズ、リチャード・ボーデン。 0.45
Nestedvae: Isolating common factors via weak supervision. Nestedvae: 弱監督による共通要因の分離。 0.73
2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020 0.45
Matthew James Vowels, Necati Cihan Camgoz, and Richard Bowden. マシュー・ジェームズ母音、ネカティ・シハン・カンゴス、リチャード・ボウデン。 0.43
Vdsm: Unsupervised video disentanglement with state-space modeling and deep mixtures of experts. Vdsm: 状態空間モデリングと専門家の深い混在による教師なしのビデオディスタングル。 0.65
2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021 0.45
Weiran Wang, Honglak Lee, and Karen Livescu. Weiran Wang, Honglak Lee, Karen Livescu 0.29
Deep varia- tional canonical correlation analysis. 深いヴァリア 正準正準相関分析 0.40
ArXiv, 2016. 2016年、ArXiv。 0.86
Yizhe Zhu, Martin Renqiang Min, Asim Kadav, and Hans Peter Graf. Yizhe Zhu、Martin Renqiang Min、Asim Kadav、Hans Peter Graf。 0.33
S3vae: Self-supervised sequential vae for representation disentanglement and data generation. S3vae: 表現の切り離しとデータ生成のための自己教師付きシーケンシャルVe。 0.53
2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6537–6546, 2020. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 6537–6546, 2020 0.48
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。