論文の概要: TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure
- arxiv url: http://arxiv.org/abs/2506.23094v1
- Date: Sun, 29 Jun 2025 05:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.714934
- Title: TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure
- Title(参考訳): TOMI:全音構造を持つマルチトラック構成のための音楽思想の変容と組織化
- Authors: Qi He, Gus Xia, Ziyu Wang,
- Abstract要約: ディープ・ミュージック・ジェネレーションにおける新しいアプローチとしてTOMI(Transforming and Organizing Music Ideas)を紹介する。
ビデオクリップ(短い音声またはMIDIセグメント)、セクション(時間的位置)、トラック(構造層)、変換によって特徴付けられる、スパースな4次元空間を介して、多トラック合成プロセスを表現する。
本モデルでは,マルチトラックの電子楽曲を全曲構造で生成することが可能であり,TOMIモデルとREAPERデジタルオーディオワークステーションをさらに統合する。
- 参考スコア(独自算出の注目度): 8.721294663967305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical planning is a powerful approach to model long sequences structurally. Aside from considering hierarchies in the temporal structure of music, this paper explores an even more important aspect: concept hierarchy, which involves generating music ideas, transforming them, and ultimately organizing them--across musical time and space--into a complete composition. To this end, we introduce TOMI (Transforming and Organizing Music Ideas) as a novel approach in deep music generation and develop a TOMI-based model via instruction-tuned foundation LLM. Formally, we represent a multi-track composition process via a sparse, four-dimensional space characterized by clips (short audio or MIDI segments), sections (temporal positions), tracks (instrument layers), and transformations (elaboration methods). Our model is capable of generating multi-track electronic music with full-song structure, and we further integrate the TOMI-based model with the REAPER digital audio workstation, enabling interactive human-AI co-creation. Experimental results demonstrate that our approach produces higher-quality electronic music with stronger structural coherence compared to baselines.
- Abstract(参考訳): 階層的プランニングは、長いシーケンスを構造的にモデル化するための強力なアプローチである。
音楽の時間的構造における階層性は別として,音楽のアイデアを創造し,それを変換し,最終的にそれらを組織化する概念階層を,完全な作曲へと導くという,さらに重要な側面を探求する。
そこで我々は,TOMI(Transforming and Organizing Music Ideas)をディープ・ミュージック・ジェネレーションの新たなアプローチとして紹介し,インストラクション・チューニング基礎 LLM によるTOMIモデルの開発を行う。
形式的には、クリップ(短い音声またはMIDIセグメント)、セクション(時間的位置)、トラック(構造層)、変換(実験方法)を特徴とする、スパースな4次元空間を経由した多トラック合成プロセスを表現する。
本モデルでは,マルチトラックの電子楽曲を全曲構造で生成することが可能であり,TOMIをベースとしたモデルをREAPERデジタルオーディオワークステーションに統合し,対話型人間とAIの共創を可能にする。
実験により,本手法はベースラインに比べて構造コヒーレンスが高い高品質な電子音楽を生み出すことが示された。
関連論文リスト
- Synthesizing Composite Hierarchical Structure from Symbolic Music Corpora [32.18458296933001]
構造時間グラフ(STG)と呼ばれる音楽構造の統一的階層的メタ表現を提案する。
シングルピースの場合、STGは、より微細な構造的音楽的特徴の階層構造とそれらの間の時間的関係を定義するデータ構造である。
論文 参考訳(メタデータ) (2025-02-21T02:32:29Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - ByteComposer: a Human-like Melody Composition Method based on Language
Model Agent [11.792129708566598]
大規模言語モデル(LLM)は、マルチモーダル理解と生成タスクの進歩を奨励している。
我々は,人間の創造的パイプラインを4つのステップでエミュレートするエージェントフレームワークByteComposerを提案する。
我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-24T04:35:07Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。