論文の概要: Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation
and Editing via Content-based Controls
- arxiv url: http://arxiv.org/abs/2402.09508v1
- Date: Wed, 14 Feb 2024 19:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:16:36.542857
- Title: Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation
and Editing via Content-based Controls
- Title(参考訳): arranged, inpaint, and refine: コンテンツベースのコントロールによる長期的な音楽オーディオの生成と編集
- Authors: Liwei Lin, Gus Xia, Yixiao Zhang, Junyan Jiang
- Abstract要約: コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を担っている。
LLM(Large Language Models)は高品質な音楽を生成できることを示しており、自動回帰生成に重点を置いているため、音楽編集タスクにおける有用性を制限している。
そこで本稿では,自動回帰言語モデルによる楽曲の塗り替え作業へのシームレス対応を実現するための,新しい条件付きファインチューニング(PEFT)手法を提案する。
- 参考スコア(独自算出の注目度): 6.747653154871061
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Controllable music generation plays a vital role in human-AI music
co-creation. While Large Language Models (LLMs) have shown promise in
generating high-quality music, their focus on autoregressive generation limits
their utility in music editing tasks. To bridge this gap, we introduce a novel
Parameter-Efficient Fine-Tuning (PEFT) method. This approach enables
autoregressive language models to seamlessly address music inpainting tasks.
Additionally, our PEFT method integrates frame-level content-based controls,
facilitating track-conditioned music refinement and score-conditioned music
arrangement. We apply this method to fine-tune MusicGen, a leading
autoregressive music generation model. Our experiments demonstrate promising
results across multiple music editing tasks, offering more flexible controls
for future AI-driven music editing tools. A demo
page\footnote{\url{https://kikyo-16.github.io/AIR/}.} showcasing our work and
source codes\footnote{\url{https://github.com/Kikyo-16/airgen}.} are available
online.
- Abstract(参考訳): コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を果たす。
大規模言語モデル(llm)は高品質な音楽の生成に期待が持たれているが、自己回帰型生成に重点を置くことで、音楽編集作業における有用性が制限される。
このギャップを埋めるために,パラメータ効率の良いファインチューニング(PEFT)手法を提案する。
このアプローチにより、自動回帰型言語モデルは、音楽の塗装タスクをシームレスに扱うことができる。
さらに,PEFT法はフレームレベルのコンテンツベース制御を統合し,トラックコンディショニングと楽譜コンディショニングを容易にする。
本手法を自己回帰型音楽生成モデルであるファイン・チューン・ミュージックゲンに適用する。
実験では、複数の音楽編集タスクにまたがる有望な結果を実証し、将来のAI駆動の音楽編集ツールをより柔軟なコントロールを提供する。
デモページ\footnote{\url{https://kikyo-16.github.io/air/}
関連スポンサーコンテンツ 私たちの仕事とソースコードを例示します。
オンラインで入手できる。
関連論文リスト
- Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
本システムは,フレキシブルな音楽変化生成とスタイル転送を実現する。
論文 参考訳(メタデータ) (2023-10-26T05:24:38Z) - MusicAgent: An AI Agent for Music Understanding and Generation with
Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。
このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文 参考訳(メタデータ) (2023-10-18T13:31:10Z) - InstructME: An Instruction Guided Music Edit And Remix Framework with
Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。
本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。
提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文 参考訳(メタデータ) (2023-08-28T07:11:42Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MusIAC: An extensible generative framework for Music Infilling
Applications with multi-level Control [11.811562596386253]
埋め込み(いんふ)とは、周囲のマルチトラック音楽に与えられた音楽セクションを生成する作業のこと。
提案するフレームワークは、バーごとのトーン張力やポリフォニーレベルの追跡といった制御トークンの追加として、新しい制御トークンである。
インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。
論文 参考訳(メタデータ) (2022-02-11T10:02:21Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z) - Audeo: Audio Generation for a Silent Performance Video [17.705770346082023]
本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。
本研究の主な目的は、このような変換の妥当性を探求し、視覚事象と音の関連性を持つための手がかりや構成要素を特定することである。
論文 参考訳(メタデータ) (2020-06-23T00:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。