論文の概要: Learning source-aware representations of music in a discrete latent
space
- arxiv url: http://arxiv.org/abs/2111.13321v1
- Date: Fri, 26 Nov 2021 05:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 18:17:05.104503
- Title: Learning source-aware representations of music in a discrete latent
space
- Title(参考訳): 離散潜在空間における音楽の学習元認識表現
- Authors: Jinsung Kim, Yeong-Seok Jeong, Woosung Choi, Jaehwa Chung, Soonyoung
Jung
- Abstract要約: 本稿では,Vector-Quantized Variational Auto-Encoder(VQ-VAE)による音源認識型音楽表現の学習手法を提案する。
我々はVQ-VAEをトレーニングし、入力混合物を離散ラテント空間の整数テンソルにエンコードし、人間がラテントベクトルをソース認識で操作できる分解構造を持つように設計する。
- 参考スコア(独自算出の注目度): 0.7192233658525915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, neural network based methods have been proposed as a method
that cangenerate representations from music, but they are not human readable
and hardly analyzable oreditable by a human. To address this issue, we propose
a novel method to learn source-awarelatent representations of music through
Vector-Quantized Variational Auto-Encoder(VQ-VAE).We train our VQ-VAE to encode
an input mixture into a tensor of integers in a discrete latentspace, and
design them to have a decomposed structure which allows humans to manipulatethe
latent vector in a source-aware manner. This paper also shows that we can
generate basslines by estimating latent vectors in a discrete space.
- Abstract(参考訳): 近年、音楽からの表現を可読化する方法としてニューラルネットワークに基づく手法が提案されているが、その手法は可読性ではなく、人間が編集できるものはほとんどない。
そこで本稿では,Vector-Quantized Variational Auto-Encoder(VQ-VAE)を用いた音源認識型音楽表現法を提案する。
我々はVQ-VAEをトレーニングし、入力混合物を離散ラテント空間の整数テンソルにエンコードし、人間がラテントベクトルをソース認識で操作できる分解構造を持つように設計する。
また, 離散空間内の潜在ベクトルを推定することで, ベースラインを生成することができることを示した。
関連論文リスト
- Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models [5.083504224028769]
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と離散拡散モデルを組み合わせたシンボリック音楽の生成を提案する。
訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。
拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。
論文 参考訳(メタデータ) (2023-10-21T15:41:50Z) - Autocodificadores Variacionales (VAE) Fundamentos Te\'oricos y
Aplicaciones [0.40611352512781856]
VAEはニューラルネットワークに基づく確率的グラフィカルモデルである。
この論文はスペイン語で書かれており、スペイン語圏のコミュニティにこの科学的知識が浸透するのを手助けしている。
論文 参考訳(メタデータ) (2023-02-18T15:29:55Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Interpreting Embedding Spaces by Conceptualization [2.620130580437745]
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
論文 参考訳(メタデータ) (2022-08-22T15:32:17Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。