論文の概要: Not that Groove: Zero-Shot Symbolic Music Editing
- arxiv url: http://arxiv.org/abs/2505.08203v1
- Date: Tue, 13 May 2025 03:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.413522
- Title: Not that Groove: Zero-Shot Symbolic Music Editing
- Title(参考訳): ゼロショットのシンボリック音楽編集
- Authors: Li Zhang,
- Abstract要約: 私たちは象徴的な音楽編集に最初に取り組みました。
ゼロショットプロンプト付きLPMがドラム溝を効果的に編集できることを実証する。
成功のレシピは、LCMと音楽とを相互作用する創造的に設計されたフォーマットである。
- 参考スコア(独自算出の注目度): 4.897267974042842
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most work in AI music generation focused on audio, which has seen limited use in the music production industry due to its rigidity. To maximize flexibility while assuming only textual instructions from producers, we are among the first to tackle symbolic music editing. We circumvent the known challenge of lack of labeled data by proving that LLMs with zero-shot prompting can effectively edit drum grooves. The recipe of success is a creatively designed format that interfaces LLMs and music, while we facilitate evaluation by providing an evaluation dataset with annotated unit tests that highly aligns with musicians' judgment.
- Abstract(参考訳): AI音楽生成におけるほとんどの仕事はオーディオに焦点を合わせており、音楽制作業界ではその剛性のために使用が限られている。
プロデューサーからのテキストによる指示のみを仮定しながら、柔軟性を最大化するために、私たちはシンボリックな音楽編集に最初に取り組みました。
我々は、ゼロショットプロンプト付きLPMがドラム溝を効果的に編集できることを証明し、ラベル付きデータの欠如という既知の課題を回避する。
成功のレシピは、LSMと音楽の相互作用を創造的に設計したフォーマットであり、ミュージシャンの判断と高度に一致した注釈付き単体テストによる評価データセットを提供することにより、評価を容易にする。
関連論文リスト
- Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。
画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文 参考訳(メタデータ) (2025-07-07T10:46:07Z) - Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。
実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。
メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文 参考訳(メタデータ) (2025-05-03T21:45:13Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - InstructME: An Instruction Guided Music Edit And Remix Framework with
Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。
本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。
提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文 参考訳(メタデータ) (2023-08-28T07:11:42Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。