論文の概要: HNote: Extending YNote with Hexadecimal Encoding for Fine-Tuning LLMs in Music Modeling
- arxiv url: http://arxiv.org/abs/2509.25694v2
- Date: Sat, 04 Oct 2025 07:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 12:09:05.127234
- Title: HNote: Extending YNote with Hexadecimal Encoding for Fine-Tuning LLMs in Music Modeling
- Title(参考訳): HNote:音楽モデリングにおける微調整LDMのためのヘキサデシマル符号化によるYNoteの拡張
- Authors: Hung-Ying Chu, Shao-Yu Wei, Guan-Wei Chen, Tzu-Wei Hung, ChengYang Tsai, Yu-Cheng Lin,
- Abstract要約: HNoteは、固定された32単位の測定フレームワーク内のピッチと持続時間をエンコードする、ヘキサデシマルベースの新しい表記システムである。
我々は,YNoteの伝統的な民謡曲から生成された12,300曲をHNoteに変換し,パラメータ効率のLoRAを用いてLLaMA-3.1(8B)を微調整する。
実験の結果,HNoteの構文的正しさ率は82.5%であり,BLEUとROUGEの評価は強い記号的・構造的類似性を示した。
- 参考スコア(独自算出の注目度): 0.5753732168969135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have created new opportunities for symbolic music generation. However, existing formats such as MIDI, ABC, and MusicXML are either overly complex or structurally inconsistent, limiting their suitability for token-based learning architectures. To address these challenges, we propose HNote, a novel hexadecimal-based notation system extended from YNote, which encodes both pitch and duration within a fixed 32-unit measure framework. This design ensures alignment, reduces ambiguity, and is directly compatible with LLM architectures. We converted 12,300 Jiangnan-style songs generated from traditional folk pieces from YNote into HNote, and fine-tuned LLaMA-3.1(8B) using parameter-efficient LoRA. Experimental results show that HNote achieves a syntactic correctness rate of 82.5%, and BLEU and ROUGE evaluations demonstrate strong symbolic and structural similarity, producing stylistically coherent compositions. This study establishes HNote as an effective framework for integrating LLMs with cultural music modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、象徴的な音楽生成の新しい機会を生み出している。
しかし、MIDI、ABC、MusicXMLといった既存のフォーマットは複雑すぎるか構造的に不整合であり、トークンベースの学習アーキテクチャに対する適合性を制限している。
これらの課題に対処するために,YNote から拡張された新規なヘキサデシマルベースの表記システム HNote を提案する。
この設計はアライメントを確保し、あいまいさを低減し、LLMアーキテクチャと直接互換性がある。
我々は,YNoteの伝統的な民謡から生成された12,300曲の江南風歌をHNoteに変換し,パラメータ効率のLoRAを用いたLLaMA-3.1(8B)を微調整した。
実験結果から,HNoteの構文的正しさ率は82.5%であり,BLEUとROUGEの評価は強い記号的および構造的類似性を示し,スタイリスティックなコヒーレントな組成が得られた。
本研究は,LLMと文化音楽モデリングを統合するための効果的な枠組みとしてHNoteを確立した。
関連論文リスト
- Decoding Musical Origins: Distinguishing Human and AI Composers [0.6246322794612152]
YNoteは、新しい機械学習フレンドリーな音楽表記システムである。
我々は、音楽が人間によって構成されているかどうかを識別できる効果的な分類モデルを訓練する。
このモデルは98.25%の精度を達成し、YNoteが十分なスタイリスティックな情報を保持することを示すことに成功した。
論文 参考訳(メタデータ) (2025-09-14T17:50:33Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Large Language Models' Internal Perception of Symbolic Music [3.9901365062418317]
大規模言語モデル(LLM)は、自然言語における文字列間の関係のモデル化に優れている。
本稿では,テキストのプロンプトからシンボリック音楽データを生成することで,LLMが音楽概念をどのように表現するかを検討する。
論文 参考訳(メタデータ) (2025-07-17T05:48:45Z) - NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms [39.0194983652815]
NotaGenは、高品質なクラシック楽譜を制作する可能性を探究する象徴的な音楽生成モデルである。
ABC表記の1.6万曲に事前訓練され、その後「時代劇構成」のプロンプトで調整された約9Kの高音質のクラシック曲に微調整される。
強化学習のためのCLaMP-DPO法は,人間のアノテーションや事前定義された報酬を必要とせずに,生成品質と制御性をさらに向上する。
論文 参考訳(メタデータ) (2025-02-25T09:12:07Z) - YNote: A Novel Music Notation for Fine-Tuning LLMs in Music Generation [3.236235028100295]
音符と音符を表わすために4文字のみを使用する簡易な音符表記システムであるYNoteを紹介する。
YNoteの固定フォーマットは一貫性を確保し、読みやすく、より微調整された大規模言語モデルに適している。
論文 参考訳(メタデータ) (2025-02-12T14:10:52Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。
3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。
歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。
SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。