論文の概要: Symbolic Music Generation with Fine-grained Interactive Textural Guidance
- arxiv url: http://arxiv.org/abs/2410.08435v1
- Date: Fri, 11 Oct 2024 00:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:26:42.296831
- Title: Symbolic Music Generation with Fine-grained Interactive Textural Guidance
- Title(参考訳): 微粒な対話型テクスチャ誘導によるシンボリック音楽生成
- Authors: Tingyu Zhu, Haoyu Liu, Zhimin Jiang, Zeyu Zheng,
- Abstract要約: 拡散モデルにFTGを導入し,学習した分布の誤差を補正する。
シンボリック音楽生成における課題とFTGアプローチの効果について理論的特徴を導出する。
ユーザ入力によるインタラクティブな音楽生成のためのデモページを提供し,提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 13.052085651071135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of symbolic music generation presents unique challenges due to the combination of limited data availability and the need for high precision in note pitch. To overcome these difficulties, we introduce Fine-grained Textural Guidance (FTG) within diffusion models to correct errors in the learned distributions. By incorporating FTG, the diffusion models improve the accuracy of music generation, which makes them well-suited for advanced tasks such as progressive music generation, improvisation and interactive music creation. We derive theoretical characterizations for both the challenges in symbolic music generation and the effect of the FTG approach. We provide numerical experiments and a demo page for interactive music generation with user input to showcase the effectiveness of our approach.
- Abstract(参考訳): シンボリック・ミュージック・ジェネレーションの問題は、限られたデータ・アベイラビリティーと音符ピッチの高精度化の必要性が組み合わさって、独特な課題を呈している。
これらの課題を克服するために,学習分布の誤りを補正するために,拡散モデル内に細粒度テクスチュラルガイダンス(FTG)を導入する。
FTGを取り入れることで、拡散モデルは音楽生成の精度を向上し、プログレッシブな音楽生成、即興、インタラクティブな音楽生成といった高度なタスクに適している。
シンボリック音楽生成における課題とFTGアプローチの効果について理論的特徴を導出する。
ユーザ入力による対話型音楽生成のための数値実験とデモページを提供し,提案手法の有効性を実証する。
関連論文リスト
- QA-MDT: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation [46.301388755267986]
本稿では,高品質な学習戦略を取り入れた高品質音楽生成のための新しいパラダイムを提案する。
我々はまず,TTMタスクにマスク付き拡散トランスフォーマー(MDT)モデルを適用し,その品質管理能力と音楽性の向上を実証した。
実験では、MusicCapsとSong-Describerデータセット上でのSOTA(State-of-the-art)のパフォーマンスを実証した。
論文 参考訳(メタデータ) (2024-05-24T18:09:27Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Generating music with sentiment using Transformer-GANs [0.0]
本研究では,人間の感情から得られるデータによって条件付けられた記号音楽の生成モデルを提案する。
我々は,効率の良い線形バージョンの注意と識別器を用いることで,上記の問題に対処しようと試みている。
論文 参考訳(メタデータ) (2022-12-21T15:59:35Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。