論文の概要: Large Language Models' Internal Perception of Symbolic Music
- arxiv url: http://arxiv.org/abs/2507.12808v1
- Date: Thu, 17 Jul 2025 05:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.357808
- Title: Large Language Models' Internal Perception of Symbolic Music
- Title(参考訳): 大言語モデルによるシンボリック音楽の内部認識
- Authors: Andrew Shin, Kunitake Kaneko,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語における文字列間の関係のモデル化に優れている。
本稿では,テキストのプロンプトからシンボリック音楽データを生成することで,LLMが音楽概念をどのように表現するかを検討する。
- 参考スコア(独自算出の注目度): 3.9901365062418317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at modeling relationships between strings in natural language and have shown promise in extending to other symbolic domains like coding or mathematics. However, the extent to which they implicitly model symbolic music remains underexplored. This paper investigates how LLMs represent musical concepts by generating symbolic music data from textual prompts describing combinations of genres and styles, and evaluating their utility through recognition and generation tasks. We produce a dataset of LLM-generated MIDI files without relying on explicit musical training. We then train neural networks entirely on this LLM-generated MIDI dataset and perform genre and style classification as well as melody completion, benchmarking their performance against established models. Our results demonstrate that LLMs can infer rudimentary musical structures and temporal relationships from text, highlighting both their potential to implicitly encode musical patterns and their limitations due to a lack of explicit musical context, shedding light on their generative capabilities for symbolic music.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語における文字列間の関係のモデル化に優れており、コーディングや数学といった他の記号的領域にも拡張する可能性を示している。
しかし、それらが暗黙的に象徴音楽のモデル化を行う範囲はいまだ未定である。
本稿では、ジャンルとスタイルの組み合わせを記述したテキストプロンプトから象徴的な音楽データを生成し、認識・生成タスクを通じてそれらの有用性を評価することにより、LLMが音楽概念をどのように表現するかを検討する。
LLM生成したMIDIファイルのデータセットを明示的な音楽訓練に頼らずに生成する。
次に、このLLM生成MIDIデータセットでニューラルネットワークを完全にトレーニングし、ジャンル分類とスタイル分類、メロディ補完を実行し、確立したモデルに対してパフォーマンスをベンチマークします。
以上の結果から,LLMは音楽パターンを暗黙的にエンコードする可能性と,明示的な音楽文脈が欠如していることによる限界を強調し,その生成能力に光を当てることにより,初歩的な音楽構造や時間的関係をテキストから推測できることが示唆された。
関連論文リスト
- MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models [46.761820987130065]
MusiXQAは、音楽シート理解におけるMLLMの評価と進歩のための、最初の包括的なデータセットである。
我々は、データセットに微調整されたMLLMであるPhi-3-MusiXを開発し、GPT法よりも大きな性能向上を実現した。
論文 参考訳(メタデータ) (2025-06-28T20:46:47Z) - Can LLMs "Reason" in Music? An Evaluation of LLMs' Capability of Music Understanding and Generation [31.825105824490464]
シンボリック・ミュージック(英: Symbolic Music)は、言語に似た、離散的な記号で符号化される。
近年,大言語モデル (LLM) を記号的音楽領域に適用する研究が進められている。
本研究は, シンボリック・ミュージック・プロセッシングにおけるLLMの能力と限界について, 徹底的に検討する。
論文 参考訳(メタデータ) (2024-07-31T11:29:46Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。
3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。
歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。
SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - Natural Language Processing Methods for Symbolic Music Generation and
Information Retrieval: a Survey [6.416887247454113]
シンボリック・ミュージック・ジェネレーションと情報検索研究に応用されたNLP手法について検討する。
まず,自然言語の逐次表現から適応した記号音楽の表現について概説する。
我々はこれらのモデル、特に深層学習モデルについて、異なるプリズムを通して記述し、音楽に特化されたメカニズムを強調した。
論文 参考訳(メタデータ) (2024-02-27T12:48:01Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - Embeddings as representation for symbolic music [0.0]
音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。
本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
論文 参考訳(メタデータ) (2020-05-19T13:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。