論文の概要: LoopGen: Training-Free Loopable Music Generation
- arxiv url: http://arxiv.org/abs/2504.04466v2
- Date: Tue, 08 Apr 2025 06:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 10:05:05.107084
- Title: LoopGen: Training-Free Loopable Music Generation
- Title(参考訳): LoopGen: トレーニング不要のループ可能な音楽生成
- Authors: Davide Marincione, Giorgio Strano, Donato Crisostomi, Roberto Ribuoli, Emanuele Rodolà,
- Abstract要約: 我々は,非自己回帰モデル (MAGNeT) を開発し,終端生成時の音声の開始に係わるトークンを円形パターンで生成する。
ループのシーム周辺のトークンパープレキシティを計算し, ループ遷移の整合性を評価し, 55%の改善を観察した。
- 参考スコア(独自算出の注目度): 12.663333784905578
- License:
- Abstract: Loops--short audio segments designed for seamless repetition--are central to many music genres, particularly those rooted in dance and electronic styles. However, current generative music models struggle to produce truly loopable audio, as generating a short waveform alone does not guarantee a smooth transition from its endpoint back to its start, often resulting in audible discontinuities. Loops--short audio segments designed for seamless repetition--are central to many music genres, particularly those rooted in dance and electronic styles. However, current generative music models struggle to produce truly loopable audio, as generating a short waveform alone does not guarantee a smooth transition from its endpoint back to its start, often resulting in audible discontinuities. We address this gap by modifying a non-autoregressive model (MAGNeT) to generate tokens in a circular pattern, letting the model attend to the beginning of the audio when creating its ending. This inference-only approach results in generations that are aware of future context and loop naturally, without the need for any additional training or data. We evaluate the consistency of loop transitions by computing token perplexity around the seam of the loop, observing a 55% improvement. Blind listening tests further confirm significant perceptual gains over baseline methods, improving mean ratings by 70%. Taken together, these results highlight the effectiveness of inference-only approaches in improving generative models and underscore the advantages of non-autoregressive methods for context-aware music generation.
- Abstract(参考訳): ループ — シームレスな繰り返しのために設計された短いオーディオセグメント — は、特にダンスや電子的スタイルに根ざした、多くの音楽ジャンルの中心である。
しかし、現在の生成音楽モデルは、短い波形だけを生成するだけでは、エンドポイントから開始までのスムーズな遷移が保証されないため、真にループ可能なオーディオを生成するのに苦労している。
ループ — シームレスな繰り返しのために設計された短いオーディオセグメント — は、特にダンスや電子的スタイルに根ざした、多くの音楽ジャンルの中心である。
しかし、現在の生成音楽モデルは、短い波形だけを生成するだけでは、エンドポイントから開始までのスムーズな遷移が保証されないため、真にループ可能なオーディオを生成するのに苦労している。
我々は、非自己回帰モデル(MAGNeT)を修正して、円形パターンでトークンを生成し、終端を作成する際に、そのモデルがオーディオの開始に付随するようにすることで、このギャップに対処する。
この推論のみのアプローチは、将来のコンテキストを認識し、追加のトレーニングやデータを必要とせずに、自然にループする世代を生み出します。
ループのシーム周辺におけるトークンパープレキシティの計算により,ループ遷移の整合性を評価し,55%の改善を観察した。
ブラインド聴取テストは、ベースライン法よりも重要な知覚的利得を確認し、平均格付けを70%向上させた。
これらの結果は、生成モデルの改善における推論のみのアプローチの有効性を強調し、文脈対応音楽生成における非自己回帰的手法の利点を浮き彫りにした。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Catch-A-Waveform: Learning to Generate Audio from a Single Short Example [33.96833901121411]
任意の領域から1つの短い音声信号で訓練できるGANに基づく生成モデルを提案する。
いずれにせよ,20秒以内のトレーニングオーディオは,我々のモデルが最先端の結果を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-11T14:35:11Z) - LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical
Parameters [12.72202888016628]
LoopNetは直感的なパラメータに条件付きループを生成するためのフィードフォワード生成モデルである。
我々は,音楽情報検索(MIR)モデルと公開ループサンプルの大量収集を活用している。
論文 参考訳(メタデータ) (2021-05-21T14:24:34Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization [48.55126268721948]
本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
論文 参考訳(メタデータ) (2020-05-18T08:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。