論文の概要: ByteComposer: a Human-like Melody Composition Method based on Language
Model Agent
- arxiv url: http://arxiv.org/abs/2402.17785v2
- Date: Thu, 7 Mar 2024 00:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:48:03.565966
- Title: ByteComposer: a Human-like Melody Composition Method based on Language
Model Agent
- Title(参考訳): ByteComposer:言語モデルエージェントに基づく人間ライクなメロディ構成法
- Authors: Xia Liang, Xingjian Du, Jiaju Lin, Pei Zou, Yuan Wan, Bilei Zhu
- Abstract要約: 大規模言語モデル(LLM)は、マルチモーダル理解と生成タスクの進歩を奨励している。
我々は,人間の創造的パイプラインを4つのステップでエミュレートするエージェントフレームワークByteComposerを提案する。
我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。
- 参考スコア(独自算出の注目度): 11.792129708566598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLM) have shown encouraging progress in multimodal
understanding and generation tasks. However, how to design a human-aligned and
interpretable melody composition system is still under-explored. To solve this
problem, we propose ByteComposer, an agent framework emulating a human's
creative pipeline in four separate steps : "Conception Analysis - Draft
Composition - Self-Evaluation and Modification - Aesthetic Selection". This
framework seamlessly blends the interactive and knowledge-understanding
features of LLMs with existing symbolic music generation models, thereby
achieving a melody composition agent comparable to human creators. We conduct
extensive experiments on GPT4 and several open-source large language models,
which substantiate our framework's effectiveness. Furthermore, professional
music composers were engaged in multi-dimensional evaluations, the final
results demonstrated that across various facets of music composition,
ByteComposer agent attains the level of a novice melody composer.
- Abstract(参考訳): 大規模言語モデル(LLM)はマルチモーダル理解と生成タスクの進歩を奨励している。
しかし,人間と解釈可能なメロディ合成システムの設計方法はまだ未検討である。
そこで我々は,人間の創造的パイプラインを4段階に分けてエミュレートするエージェントフレームワークByteComposerを提案する。
このフレームワークは、LLMの対話的および知識に基づく特徴と既存のシンボリック音楽生成モデルとをシームレスにブレンドし、人間のクリエイターに匹敵するメロディ合成エージェントを実現する。
我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。
さらに、プロの作曲家が多次元評価に携わった結果、楽曲のさまざまな面にまたがって、バイト合成エージェントが初心者のメロディ作曲家のレベルに達することが判明した。
関連論文リスト
- MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [73.47607237309258]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Interactive Melody Generation System for Enhancing the Creativity of
Musicians [0.0]
本研究では,人間同士の協調構成の過程を列挙するシステムを提案する。
複数のリカレントニューラルネットワーク(RNN)モデルを統合することにより、このシステムは、複数の作曲家とのコラボレーションに似たエクスペリエンスを提供する。
論文 参考訳(メタデータ) (2024-03-06T01:33:48Z) - SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Expressive Communication: A Common Framework for Evaluating Developments
in Generative Models and Steering Interfaces [1.2891210250935146]
本研究では,モデルとユーザインタフェースの両面における開発が,共同創造の促進にいかに重要であるかを検討する。
作曲者26人が100曲以上を作曲し、聴取者が1000曲以上を頭と頭で比較した結果、より表現力のあるモデルとよりステアブルなインターフェースが重要であることが判明した。
論文 参考訳(メタデータ) (2021-11-29T20:57:55Z) - Music Composition with Deep Learning: A Review [1.7188280334580197]
創造性のある音楽を生成するための,現在のディープラーニングモデルの能力について分析する。
理論的観点からこれらのモデルと作曲過程を比較した。
論文 参考訳(メタデータ) (2021-08-27T13:53:53Z) - Music Harmony Generation, through Deep Learning and Using a
Multi-Objective Evolutionary Algorithm [0.0]
本稿では,ポリフォニック音楽生成のための遺伝的多目的進化最適化アルゴリズムを提案する。
ゴールの1つは音楽の規則と規則であり、他の2つのゴール、例えば音楽の専門家や普通のリスナーのスコアとともに、最も最適な反応を得るために進化のサイクルに適合する。
その結果,提案手法は,聞き手を引き寄せながら文法に従う調和音とともに,所望のスタイルや長さの難易度と快適さを生み出すことができることがわかった。
論文 参考訳(メタデータ) (2021-02-16T05:05:54Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。