論文の概要: CoComposer: LLM Multi-agent Collaborative Music Composition
- arxiv url: http://arxiv.org/abs/2509.00132v1
- Date: Fri, 29 Aug 2025 14:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.099458
- Title: CoComposer: LLM Multi-agent Collaborative Music Composition
- Title(参考訳): CoComposer: LLMマルチエージェントコラボレーション音楽コンポジション
- Authors: Peiwen Xing, Aske Plaat, Niki van Stein,
- Abstract要約: CoComposerは5つの協調エージェントで構成されるマルチエージェントシステムであり、それぞれが伝統的な作曲ワークフローに基づいたタスクを持つ。
CoComposer は,既存のマルチエージェント LLM システムよりも音楽品質が優れており,単一エージェントシステムと比較すると,生産の複雑さが高い。
- 参考スコア(独自算出の注目度): 0.6918455480131248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing AI Music composition tools are limited in generation duration, musical quality, and controllability. We introduce CoComposer, a multi-agent system that consists of five collaborating agents, each with a task based on the traditional music composition workflow. Using the AudioBox-Aesthetics system, we experimentally evaluate CoComposer on four compositional criteria. We test with three LLMs (GPT-4o, DeepSeek-V3-0324, Gemini-2.5-Flash), and find (1) that CoComposer outperforms existing multi-agent LLM-based systems in music quality, and (2) compared to a single-agent system, in production complexity. Compared to non- LLM MusicLM, CoComposer has better interpretability and editability, although MusicLM still produces better music.
- Abstract(参考訳): 既存のAI Musicコンポジションツールは、生成期間、音楽品質、制御性に制限されている。
本稿では,5つの協調エージェントからなるマルチエージェントシステムであるCoComposerについて紹介する。
本研究では,AudioBox-Aestheticsシステムを用いて,CoComposerを4つの構成基準で実験的に評価した。
我々は、3つのLCM(GPT-4o, DeepSeek-V3-0324, Gemini-2.5-Flash)をテストし、(1)CoComposerが既存のマルチエージェントLPMベースのシステムよりも音楽品質が優れており、(2)単一エージェントシステムと比較して、生産複雑性が高いことを発見した。
非LLMのMusicLMと比較して、CoComposerはより良い解釈性と編集性を持っているが、MusicLMは依然としてより良い音楽を生み出している。
関連論文リスト
- LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。
実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - FilmComposer: LLM-Driven Music Production for Silent Film Clips [7.730834771348827]
LLM方式を用いてサイレントフィルムクリップのための音楽制作を行う。
FilmComposerは、大規模な生成モデルとマルチエージェントアプローチを組み合わせた最初のものである。
MusicPro-7kには7,418本の映画クリップ、音楽、説明、リズムスポット、メインメロディが含まれている。
論文 参考訳(メタデータ) (2025-03-11T08:05:11Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。
3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。
歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。
SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - ByteComposer: a Human-like Melody Composition Method based on Language
Model Agent [11.792129708566598]
大規模言語モデル(LLM)は、マルチモーダル理解と生成タスクの進歩を奨励している。
我々は,人間の創造的パイプラインを4つのステップでエミュレートするエージェントフレームワークByteComposerを提案する。
我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-24T04:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。