Fugu-MT 論文翻訳(概要): Symbolic Music Generation with Fine-grained Interactive Textural Guidance

論文の概要: Symbolic Music Generation with Fine-grained Interactive Textural Guidance

arxiv url: http://arxiv.org/abs/2410.08435v1
Date: Fri, 11 Oct 2024 00:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 03:26:42.296831
Title: Symbolic Music Generation with Fine-grained Interactive Textural Guidance
Title（参考訳）: 微粒な対話型テクスチャ誘導によるシンボリック音楽生成
Authors: Tingyu Zhu, Haoyu Liu, Zhimin Jiang, Zeyu Zheng,
Abstract要約: 拡散モデルにFTGを導入し,学習した分布の誤差を補正する。シンボリック音楽生成における課題とFTGアプローチの効果について理論的特徴を導出する。ユーザ入力によるインタラクティブな音楽生成のためのデモページを提供し,提案手法の有効性を実証する。
参考スコア（独自算出の注目度）: 13.052085651071135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The problem of symbolic music generation presents unique challenges due to the combination of limited data availability and the need for high precision in note pitch. To overcome these difficulties, we introduce Fine-grained Textural Guidance (FTG) within diffusion models to correct errors in the learned distributions. By incorporating FTG, the diffusion models improve the accuracy of music generation, which makes them well-suited for advanced tasks such as progressive music generation, improvisation and interactive music creation. We derive theoretical characterizations for both the challenges in symbolic music generation and the effect of the FTG approach. We provide numerical experiments and a demo page for interactive music generation with user input to showcase the effectiveness of our approach.
Abstract（参考訳）: シンボリック・ミュージック・ジェネレーションの問題は、限られたデータ・アベイラビリティーと音符ピッチの高精度化の必要性が組み合わさって、独特な課題を呈している。これらの課題を克服するために,学習分布の誤りを補正するために,拡散モデル内に細粒度テクスチュラルガイダンス(FTG)を導入する。 FTGを取り入れることで、拡散モデルは音楽生成の精度を向上し、プログレッシブな音楽生成、即興、インタラクティブな音楽生成といった高度なタスクに適している。シンボリック音楽生成における課題とFTGアプローチの効果について理論的特徴を導出する。ユーザ入力による対話型音楽生成のための数値実験とデモページを提供し,提案手法の有効性を実証する。

関連論文リスト

QA-MDT: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation [46.301388755267986]
本稿では,高品質な学習戦略を取り入れた高品質音楽生成のための新しいパラダイムを提案する。我々はまず,TTMタスクにマスク付き拡散トランスフォーマー(MDT)モデルを適用し,その品質管理能力と音楽性の向上を実証した。実験では、MusicCapsとSong-Describerデータセット上でのSOTA(State-of-the-art)のパフォーマンスを実証した。
論文参考訳（メタデータ） (2024-05-24T18:09:27Z)
Music Consistency Models [31.415900049111023]
本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
論文参考訳（メタデータ） (2024-04-20T11:52:30Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-02-09T04:34:08Z)
DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文参考訳（メタデータ） (2024-01-22T18:10:10Z)
Fast Diffusion GAN Model for Symbolic Music Generation Controlled by Emotions [1.6004393678882072]
本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
論文参考訳（メタデータ） (2023-10-21T15:35:43Z)
Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文参考訳（メタデータ） (2023-09-21T17:44:57Z)
DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。 DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文参考訳（メタデータ） (2023-08-05T16:18:57Z)
ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文参考訳（メタデータ） (2023-02-09T06:27:09Z)
Generating music with sentiment using Transformer-GANs [0.0]
本研究では,人間の感情から得られるデータによって条件付けられた記号音楽の生成モデルを提案する。我々は,効率の良い線形バージョンの注意と識別器を用いることで,上記の問題に対処しようと試みている。
論文参考訳（メタデータ） (2022-12-21T15:59:35Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文参考訳（メタデータ） (2021-12-03T09:37:26Z)
Learning Style-Aware Symbolic Music Representations by Adversarial Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。第1回音楽Adversarial Autoencoder(MusAE)について紹介する。我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文参考訳（メタデータ） (2020-01-15T18:07:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。