Fugu-MT 論文翻訳(概要): Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls

論文の概要: Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls

arxiv url: http://arxiv.org/abs/2402.09508v1
Date: Wed, 14 Feb 2024 19:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 18:16:36.542857
Title: Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls
Title（参考訳）: arranged, inpaint, and refine: コンテンツベースのコントロールによる長期的な音楽オーディオの生成と編集
Authors: Liwei Lin, Gus Xia, Yixiao Zhang, Junyan Jiang
Abstract要約: コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を担っている。 LLM(Large Language Models)は高品質な音楽を生成できることを示しており、自動回帰生成に重点を置いているため、音楽編集タスクにおける有用性を制限している。そこで本稿では,自動回帰言語モデルによる楽曲の塗り替え作業へのシームレス対応を実現するための,新しい条件付きファインチューニング(PEFT)手法を提案する。
参考スコア（独自算出の注目度）: 6.747653154871061
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Controllable music generation plays a vital role in human-AI music co-creation. While Large Language Models (LLMs) have shown promise in generating high-quality music, their focus on autoregressive generation limits their utility in music editing tasks. To bridge this gap, we introduce a novel Parameter-Efficient Fine-Tuning (PEFT) method. This approach enables autoregressive language models to seamlessly address music inpainting tasks. Additionally, our PEFT method integrates frame-level content-based controls, facilitating track-conditioned music refinement and score-conditioned music arrangement. We apply this method to fine-tune MusicGen, a leading autoregressive music generation model. Our experiments demonstrate promising results across multiple music editing tasks, offering more flexible controls for future AI-driven music editing tools. A demo page\footnote{\url{https://kikyo-16.github.io/AIR/}.} showcasing our work and source codes\footnote{\url{https://github.com/Kikyo-16/airgen}.} are available online.
Abstract（参考訳）: コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を果たす。大規模言語モデル(llm)は高品質な音楽の生成に期待が持たれているが、自己回帰型生成に重点を置くことで、音楽編集作業における有用性が制限される。このギャップを埋めるために,パラメータ効率の良いファインチューニング(PEFT)手法を提案する。このアプローチにより、自動回帰型言語モデルは、音楽の塗装タスクをシームレスに扱うことができる。さらに,PEFT法はフレームレベルのコンテンツベース制御を統合し,トラックコンディショニングと楽譜コンディショニングを容易にする。本手法を自己回帰型音楽生成モデルであるファイン・チューン・ミュージックゲンに適用する。実験では、複数の音楽編集タスクにまたがる有望な結果を実証し、将来のAI駆動の音楽編集ツールをより柔軟なコントロールを提供する。デモページ\footnote{\url{https://kikyo-16.github.io/air/} 関連スポンサーコンテンツ私たちの仕事とソースコードを例示します。オンラインで入手できる。

関連論文リスト

LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。 LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-09T07:57:24Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
MusicGen-Chord: Advancing Music Generation through Chord Progressions and Interactive Web-UI [0.8192907805418583]
MusicGen-Chordは、1ホットエンコードされたメロディクロマベクトルをマルチホットエンコードされたコードクロマベクトルに変換する。 MusicGen-Remixerはテキスト記述に基づいて入力された音楽のリミックスを生成する。
論文参考訳（メタデータ） (2024-11-30T02:49:45Z)
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。 MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-10-16T18:44:56Z)
UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文参考訳（メタデータ） (2024-10-06T16:04:05Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文参考訳（メタデータ） (2024-05-28T17:27:20Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
論文参考訳（メタデータ） (2023-10-26T05:24:38Z)
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文参考訳（メタデータ） (2023-10-18T13:31:10Z)
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文参考訳（メタデータ） (2023-08-28T07:11:42Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
MusIAC: An extensible generative framework for Music Infilling Applications with multi-level Control [11.811562596386253]
埋め込み(いんふ)とは、周囲のマルチトラック音楽に与えられた音楽セクションを生成する作業のこと。提案するフレームワークは、バーごとのトーン張力やポリフォニーレベルの追跡といった制御トークンの追加として、新しい制御トークンである。インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。
論文参考訳（メタデータ） (2022-02-11T10:02:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。