Fugu-MT 論文翻訳(概要): Content-based Controls For Music Large Language Modeling

論文の概要: Content-based Controls For Music Large Language Modeling

arxiv url: http://arxiv.org/abs/2310.17162v2
Date: Sat, 13 Apr 2024 20:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 23:27:27.464900
Title: Content-based Controls For Music Large Language Modeling
Title（参考訳）: 音楽大言語モデリングのためのコンテンツベース制御
Authors: Liwei Lin, Gus Xia, Junyan Jiang, Yixiao Zhang,
Abstract要約: Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
参考スコア（独自算出の注目度）: 6.17674772485321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed a rapid growth of large-scale language models in the domain of music audio. Such models enable end-to-end generation of higher-quality music, and some allow conditioned generation using text descriptions. However, the control power of text controls on music is intrinsically limited, as they can only describe music indirectly through meta-data (such as singers and instruments) or high-level representations (such as genre and emotion). We aim to further equip the models with direct and content-based controls on innate music languages such as pitch, chords and drum track. To this end, we contribute Coco-Mulla, a content-based control method for music large language modeling. It uses a parameter-efficient fine-tuning (PEFT) method tailored for Transformer-based audio models. Experiments show that our approach achieved high-quality music generation with low-resource semi-supervised learning, tuning with less than 4% parameters compared to the original model and training on a small dataset with fewer than 300 songs. Moreover, our approach enables effective content-based controls, and we illustrate the control power via chords and rhythms, two of the most salient features of music audio. Furthermore, we show that by combining content-based controls and text descriptions, our system achieves flexible music variation generation and arrangement. Our source codes and demos are available online.
Abstract（参考訳）: 近年、音楽オーディオ分野における大規模言語モデルの急速な成長が見られた。このようなモデルは高品質な音楽のエンドツーエンド生成を可能にし、一部はテキスト記述による条件付き生成を可能にする。しかし、音楽におけるテキストコントロールの制御力は、メタデータ(歌手や楽器など)や高レベルの表現(ジャンルや感情など)を通じて音楽を間接的に記述できるため、本質的に制限されている。我々は、ピッチ、コード、ドラムトラックなどの自然音楽言語に対して、直接的およびコンテンツに基づく制御をモデルに追加することを目指している。この目的のために,音楽大言語モデリングのためのコンテンツベース制御手法であるCoco-Mullaをコントリビュートする。トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。実験により,本手法は低リソース半教師付き学習による高品質な音楽生成を実現し,オリジナルモデルと比較して4%未満のパラメータでチューニングし,300曲未満の小さなデータセットでトレーニングを行った。さらに,本手法により効果的なコンテンツベース制御が可能となり,コードとリズムによる制御能力,音楽オーディオの最も有能な特徴の2つが説明できる。さらに,コンテンツベースの制御とテキスト記述を組み合わせることで,フレキシブルな音楽変化生成とアレンジメントを実現する。ソースコードとデモはオンラインで公開されています。

関連論文リスト

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文参考訳（メタデータ） (2026-01-07T14:40:48Z)
InstructAudio: Unified speech and music generation with natural language instruction [52.76518112649456]
InstructAudioは、音響属性の命令ベースの制御を可能にする統一的なフレームワークである。英語と中国語で表現力のある音声、音楽、対話生成をサポートする。
論文参考訳（メタデータ） (2025-11-23T15:15:21Z)
Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文参考訳（メタデータ） (2025-11-13T13:21:09Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。 LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-09T07:57:24Z)
Versatile Framework for Song Generation with Prompt-based Control [50.359999116420084]
VersBandは、高品質でアライメントのある曲をプロンプトベースのコントロールで合成するためのフレームワークである。分離されたモデルであるVocalBandは、歌唱スタイル、ピッチ、メル-スペクトログラムを生成するためのフローマッチング手法を利用している。フローベースのトランスフォーマーモデルであるAccompBandは、Band-MOEを取り入れ、品質、アライメント、制御の強化に適した専門家を選択する。歌詞用LyricBandとメロディー用MelodyBandの2世代モデルは、総合的なマルチタスク・ソング生成システムに貢献している。
論文参考訳（メタデータ） (2025-04-27T01:00:06Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。条件信号として自動的に抽出されたリズムとコードを統合する。 MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文参考訳（メタデータ） (2024-07-21T05:27:53Z)
Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文参考訳（メタデータ） (2024-07-08T01:59:17Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文参考訳（メタデータ） (2024-02-14T19:00:01Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文参考訳（メタデータ） (2023-01-27T14:52:53Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
MuLan: A Joint Embedding of Music Audio and Natural Language [15.753767984842014]
本稿では,音声アノテーションを自然言語記述に直接リンクする新世代のモデルを提案する。 MuLanは、4400万曲の録音で訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をしている。
論文参考訳（メタデータ） (2022-08-26T03:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。