論文の概要: Segment-Factorized Full-Song Generation on Symbolic Piano Music
- arxiv url: http://arxiv.org/abs/2510.05881v1
- Date: Tue, 07 Oct 2025 12:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.256346
- Title: Segment-Factorized Full-Song Generation on Symbolic Piano Music
- Title(参考訳): シンボリック・ピアノ・ミュージックにおけるセグメント・ファクター全音生成
- Authors: Ping-Yi Chen, Chih-Pin Tan, Yi-Hsuan Yang,
- Abstract要約: シンボリックフルソング生成のためのSegmented Full-Song Model (SFS)を提案する。
モデルでは、ユーザが提供する楽曲構造と、曲が開発されたメインアイデアをアンカーするオプションのショートシードセグメントを受け入れる。
楽曲をセグメントに分解し、関連するセグメントに選択的に注意を払い、各セグメントを生成することにより、前の作業と比べて高い品質と効率を達成する。
- 参考スコア(独自算出の注目度): 8.98555646354134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose the Segmented Full-Song Model (SFS) for symbolic full-song generation. The model accepts a user-provided song structure and an optional short seed segment that anchors the main idea around which the song is developed. By factorizing a song into segments and generating each one through selective attention to related segments, the model achieves higher quality and efficiency compared to prior work. To demonstrate its suitability for human-AI interaction, we further wrap SFS into a web application that enables users to iteratively co-create music on a piano roll with customizable structures and flexible ordering.
- Abstract(参考訳): シンボリックフルソング生成のためのSegmented Full-Song Model (SFS)を提案する。
モデルでは、ユーザが提供する楽曲構造と、曲が開発された主なアイデアをアンカーするオプションのショートシードセグメントを受け入れる。
楽曲をセグメントに分解し、関連するセグメントに選択的に注意を払い、各セグメントを生成することにより、前の作業と比べて高い品質と効率を達成する。
ヒトとAIのインタラクションに適合することを示すため、SFSをWebアプリケーションにラップし、カスタマイズ可能な構造と柔軟な順序付けを備えたピアノロール上で音楽を反復的に作成できるようにする。
関連論文リスト
- Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation [4.101665207455494]
PerceiverS(セグメンテーション・アンド・スケール)は、長い構造化された表現力のある音楽を生成するために設計された新しいアーキテクチャである。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
提案したモデルは,Maestroデータセットを用いて評価され,コヒーレントで多様な音楽を生成する方法の改善が示されている。
論文 参考訳(メタデータ) (2024-11-13T03:14:10Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - An Acoustic Segment Model Based Segment Unit Selection Approach to
Acoustic Scene Classification with Partial Utterances [70.71369660599447]
音響シーン分類(ASC)のためのほとんど情報を持たない録音音声の音響セグメントを除去する枠組みを提案する。
本手法は,全体の音響シーン空間を包含する音響セグメントユニットの普遍的集合の上に構築されている。
DCASE 2018データセットでは、シーン分類の精度が68%、全発話で72.1%、セグメント選択で上昇している。
論文 参考訳(メタデータ) (2020-07-31T23:01:53Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。