論文の概要: An Independence-promoting Loss for Music Generation with Language Models
- arxiv url: http://arxiv.org/abs/2406.02315v2
- Date: Sun, 9 Jun 2024 17:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 23:15:47.832119
- Title: An Independence-promoting Loss for Music Generation with Language Models
- Title(参考訳): 言語モデルを用いた音楽生成における独立促進的損失
- Authors: Jean-Marie Lemercier, Simon Rouard, Jade Copet, Yossi Adi, Alexandre Défossez,
- Abstract要約: 音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
- 参考スコア(独自算出の注目度): 64.95095558672996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music generation schemes using language modeling rely on a vocabulary of audio tokens, generally provided as codes in a discrete latent space learnt by an auto-encoder. Multi-stage quantizers are often employed to produce these tokens, therefore the decoding strategy used for token prediction must be adapted to account for multiple codebooks: either it should model the joint distribution over all codebooks, or fit the product of the codebook marginal distributions. Modelling the joint distribution requires a costly increase in the number of auto-regressive steps, while fitting the product of the marginals yields an inexact model unless the codebooks are mutually independent. In this work, we introduce an independence-promoting loss to regularize the auto-encoder used as the tokenizer in language models for music generation. The proposed loss is a proxy for mutual information based on the maximum mean discrepancy principle, applied in reproducible kernel Hilbert spaces. Our criterion is simple to implement and train, and it is generalizable to other multi-stream codecs. We show that it reduces the statistical dependence between codebooks during auto-encoding. This leads to an increase in the generated music quality when modelling the product of the marginal distributions, while generating audio much faster than the joint distribution model.
- Abstract(参考訳): 言語モデリングを用いた音楽生成スキームは音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
マルチステージ量子化器はしばしばこれらのトークンを生成するために使用されるため、トークン予測に使用される復号戦略は、複数のコードブックを考慮に入れなければならない。
共同分布をモデル化するには、自動回帰ステップの回数が高価に増加し、符号ブックが相互に独立でない限り、限界値の積が不正確なモデルになる。
本研究では,音楽生成のための言語モデルにおいて,自動エンコーダをトークン化するための独立性向上の損失を導入する。
提案した損失は、再現可能なカーネルヒルベルト空間に適用された最大平均誤差原理に基づく相互情報のプロキシである。
我々の基準は実装と訓練が簡単であり、他のマルチストリームコーデックにも一般化可能である。
自動符号化において,コードブック間の統計的依存を低減できることを示す。
これにより、限界分布の積をモデル化しながら、共同分布モデルよりもはるかに高速な音声を生成する際に、生成された音楽品質が向上する。
関連論文リスト
- Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。
投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明された
この研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Hierarchical Attention Encoder Decoder [2.4366811507669115]
自己回帰モデリングは、多くの実世界の応用を持つ複雑で斬新なシーケンスを生成することができる。
これらのモデルはアウトプットを自動回帰的に生成しなければなりません。
階層型リカレントデコーダアーキテクチャに基づくモデルを提案する。
論文 参考訳(メタデータ) (2023-06-01T18:17:23Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Sparse Coding with Multi-Layer Decoders using Variance Regularization [19.8572592390623]
本稿では,デコーダの正規化を必要とせずに,符号の崩壊を防止する新しいスパース符号化プロトコルを提案する。
本手法は,各潜時符号成分が一定の閾値を超える分散を有するように,直接正規化する。
分散正規化法を用いて訓練した多層デコーダを用いたスパースオートエンコーダは、スペーサー表現を用いた高品質な再構成を実現する。
論文 参考訳(メタデータ) (2021-12-16T21:46:23Z) - End-to-end Sinkhorn Autoencoder with Noise Generator [10.008055997630304]
本稿では,効率的なデータ収集シミュレーションのためのノイズ発生器を備えた新しいエンド・ツー・エンドのシンクホーンオートエンコーダを提案する。
提案手法は,LHCにおけるALICE実験のZero Degree Calorimetersによるシミュレーションデータの挑戦的データセットにおいて,競合するアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-06-11T18:04:10Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z) - Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。
エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする
我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文 参考訳(メタデータ) (2020-02-07T17:27:30Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。