論文の概要: A Contextual Latent Space Model: Subsequence Modulation in Melodic
Sequence
- arxiv url: http://arxiv.org/abs/2111.11703v1
- Date: Tue, 23 Nov 2021 07:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:29:43.969531
- Title: A Contextual Latent Space Model: Subsequence Modulation in Melodic
Sequence
- Title(参考訳): 文脈的潜在空間モデル:メロディック列における部分列変調
- Authors: Taketo Akama
- Abstract要約: 音楽やテキストなどのシーケンスの生成モデルは、周囲のコンテキストシーケンスを前提として、サブシーケンスのみを編集することができる。
本稿では,ユーザが生成空間の方向感覚でサブシーケンス生成を探索できるように,コンテキスト潜在空間モデル(M)を提案する。
文脈インフォームド事前デコーダはCLSMの生成モデルを構成し、文脈位置インフォームドは推論モデルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some generative models for sequences such as music and text allow us to edit
only subsequences, given surrounding context sequences, which plays an
important part in steering generation interactively. However, editing
subsequences mainly involves randomly resampling subsequences from a possible
generation space. We propose a contextual latent space model (CLSM) in order
for users to be able to explore subsequence generation with a sense of
direction in the generation space, e.g., interpolation, as well as exploring
variations -- semantically similar possible subsequences. A context-informed
prior and decoder constitute the generative model of CLSM, and a context
position-informed encoder is the inference model. In experiments, we use a
monophonic symbolic music dataset, demonstrating that our contextual latent
space is smoother in interpolation than baselines, and the quality of generated
samples is superior to baseline models. The generation examples are available
online.
- Abstract(参考訳): 音楽やテキストなどのシーケンスの生成モデルでは、周囲のコンテキストシーケンスを考慮すれば、サブシーケンスのみを編集することができる。
しかし、編集サブシーケンスは主に、生成可能な空間からランダムにサブシーケンスを再サンプリングする。
そこで本稿では,ユーザが生成空間における方向感覚を持つサブシーケンス生成を探索できるように,文脈潜在空間モデル(CLSM)を提案する。
文脈インフォームド事前デコーダはCLSMの生成モデルを構成し、文脈位置インフォームドエンコーダは推論モデルである。
実験ではモノフォニック・シンボリック・ミュージック・データセットを用いて,我々の文脈潜在空間がベースラインよりもスムーズであり,生成したサンプルの品質がベースラインモデルよりも優れていることを示す。
生成例はオンラインで公開されている。
関連論文リスト
- SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Calibrating Sequence likelihood Improves Conditional Language Generation [39.35161650538767]
条件言語モデルは主に最大推定(MLE)を用いて訓練される
MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は、品質によって正確なランク順生成列を割り当てないことが多い。
本稿では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うSLiC(Sequence chance calibration)を提案する。
論文 参考訳(メタデータ) (2022-09-30T19:16:16Z) - G2P-DDM: Generating Sign Pose Sequence from Gloss Sequence with Discrete
Diffusion Model [8.047896755805981]
Sign Language Productionプロジェクトは、音声言語を手話列に自動的に翻訳することを目的としている。
本稿では,連続ポーズ空間生成問題を離散列生成問題に変換することで,新しい解を提案する。
以上の結果から,我々のモデルは,公共SLP評価ベンチマークにおいて,最先端のG2Pモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-19T03:49:13Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Vector Quantized Contrastive Predictive Coding for Template-based Music
Generation [0.0]
本稿では,トークンを基本単位に分類できる離散列の変種を生成するフレキシブルな手法を提案する。
本稿では,これらの圧縮表現を用いてテンプレートシーケンスの変動を,Transformerアーキテクチャの適切な注意パターンを用いて生成する方法を示す。
論文 参考訳(メタデータ) (2020-04-21T15:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。