Fugu-MT 論文翻訳(概要): An Independence-promoting Loss for Music Generation with Language Models

論文の概要: An Independence-promoting Loss for Music Generation with Language Models

arxiv url: http://arxiv.org/abs/2406.02315v2
Date: Sun, 9 Jun 2024 17:55:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 23:15:47.832119
Title: An Independence-promoting Loss for Music Generation with Language Models
Title（参考訳）: 言語モデルを用いた音楽生成における独立促進的損失
Authors: Jean-Marie Lemercier, Simon Rouard, Jade Copet, Yossi Adi, Alexandre Défossez,
Abstract要約: 音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
参考スコア（独自算出の注目度）: 64.95095558672996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Music generation schemes using language modeling rely on a vocabulary of audio tokens, generally provided as codes in a discrete latent space learnt by an auto-encoder. Multi-stage quantizers are often employed to produce these tokens, therefore the decoding strategy used for token prediction must be adapted to account for multiple codebooks: either it should model the joint distribution over all codebooks, or fit the product of the codebook marginal distributions. Modelling the joint distribution requires a costly increase in the number of auto-regressive steps, while fitting the product of the marginals yields an inexact model unless the codebooks are mutually independent. In this work, we introduce an independence-promoting loss to regularize the auto-encoder used as the tokenizer in language models for music generation. The proposed loss is a proxy for mutual information based on the maximum mean discrepancy principle, applied in reproducible kernel Hilbert spaces. Our criterion is simple to implement and train, and it is generalizable to other multi-stream codecs. We show that it reduces the statistical dependence between codebooks during auto-encoding. This leads to an increase in the generated music quality when modelling the product of the marginal distributions, while generating audio much faster than the joint distribution model.
Abstract（参考訳）: 言語モデリングを用いた音楽生成スキームは音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。マルチステージ量子化器はしばしばこれらのトークンを生成するために使用されるため、トークン予測に使用される復号戦略は、複数のコードブックを考慮に入れなければならない。共同分布をモデル化するには、自動回帰ステップの回数が高価に増加し、符号ブックが相互に独立でない限り、限界値の積が不正確なモデルになる。本研究では,音楽生成のための言語モデルにおいて,自動エンコーダをトークン化するための独立性向上の損失を導入する。提案した損失は、再現可能なカーネルヒルベルト空間に適用された最大平均誤差原理に基づく相互情報のプロキシである。我々の基準は実装と訓練が簡単であり、他のマルチストリームコーデックにも一般化可能である。自動符号化において,コードブック間の統計的依存を低減できることを示す。これにより、限界分布の積をモデル化しながら、共同分布モデルよりもはるかに高速な音声を生成する際に、生成された音楽品質が向上する。

関連論文リスト

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation [13.289870835946347]
大規模言語モデル(LLM)に基づく音声生成モデルは、テキストトークンと基本的に異なる離散音響符号で動作する。各段階において、モデルはNのコードブックエントリを共同で予測し、単純な並列予測アプローチに挑戦する依存関係を導入する必要がある。これを解決するために階層戦略では、ローカルトランスフォーマー(LT)を使用して予測を洗練し、タイムステップ内依存関係をキャプチャする。本稿では,計算効率や合成忠実度などのデプロイメントの優先順位に基づいて,デコード戦略を選択するための実践的ガイドラインを提案する。
論文参考訳（メタデータ） (2025-09-23T21:31:00Z)
CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio [7.093237513313511]
CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。 11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
論文参考訳（メタデータ） (2025-09-11T20:31:18Z)
Exploiting Discriminative Codebook Prior for Autoregressive Image Generation [54.14166700058777]
トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。 k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
論文参考訳（メタデータ） (2025-08-14T15:00:00Z)
Embedding Alignment in Code Generation for Audio [1.3870914906258829]
LLMによるコード生成は、ライブコーディングのような創造的なコーディング努力に革命をもたらす可能性がある。本稿では,コードオーディオ埋め込みアライメントマップを構築することで,出力オーディオの埋め込みを予測するモデルを提案する。
論文参考訳（メタデータ） (2025-08-07T15:13:42Z)
SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
A correlation-permutation approach for speech-music encoders model merging [80.83944654755022]
本稿では,音楽エンコーダの内部層を音声エンコーダと整合させる相関置換手法を提案する。この方法は、モデルの特徴的相互相関層を層単位で最大化する置換行列を計算する。この作業により、独立に訓練されたエンコーダから統一されたオーディオモデルを作成することができる。
論文参考訳（メタデータ） (2025-06-13T02:04:33Z)
Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明されたこの研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文参考訳（メタデータ） (2024-11-18T09:19:15Z)
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文参考訳（メタデータ） (2024-06-08T18:57:13Z)
Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文参考訳（メタデータ） (2024-02-19T18:06:02Z)
Hierarchical Attention Encoder Decoder [2.4366811507669115]
自己回帰モデリングは、多くの実世界の応用を持つ複雑で斬新なシーケンスを生成することができる。これらのモデルはアウトプットを自動回帰的に生成しなければなりません。階層型リカレントデコーダアーキテクチャに基づくモデルを提案する。
論文参考訳（メタデータ） (2023-06-01T18:17:23Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
Sparse Coding with Multi-Layer Decoders using Variance Regularization [19.8572592390623]
本稿では,デコーダの正規化を必要とせずに,符号の崩壊を防止する新しいスパース符号化プロトコルを提案する。本手法は,各潜時符号成分が一定の閾値を超える分散を有するように,直接正規化する。分散正規化法を用いて訓練した多層デコーダを用いたスパースオートエンコーダは、スペーサー表現を用いた高品質な再構成を実現する。
論文参考訳（メタデータ） (2021-12-16T21:46:23Z)
End-to-end Sinkhorn Autoencoder with Noise Generator [10.008055997630304]
本稿では,効率的なデータ収集シミュレーションのためのノイズ発生器を備えた新しいエンド・ツー・エンドのシンクホーンオートエンコーダを提案する。提案手法は,LHCにおけるALICE実験のZero Degree Calorimetersによるシミュレーションデータの挑戦的データセットにおいて,競合するアプローチよりも優れていた。
論文参考訳（メタデータ） (2020-06-11T18:04:10Z)
Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文参考訳（メタデータ） (2020-06-01T17:52:15Z)
Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文参考訳（メタデータ） (2020-02-07T17:27:30Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。