論文の概要: Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode
- arxiv url: http://arxiv.org/abs/2509.16522v1
- Date: Sat, 20 Sep 2025 04:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.83635
- Title: Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode
- Title(参考訳): Etude: 3段階アプローチによるピアノカバー生成 -- 抽出,ストラクタライズ,デコード
- Authors: Tse-Yang Che, Yuh-Jzer Joung,
- Abstract要約: ピアノカバー生成は、ポップソングをピアノアレンジメントに変換することを目的としている。
既存のモデルは、オリジナルの曲と構造的な整合性を維持するのに失敗することが多い。
構造的類似性を定義するため、リズム情報は不可欠である。
本モデルでは, 適切な楽曲構造を保ち, 流音や音楽のダイナミクスを向上し, 高い制御可能な生成を支援するカバーを製作する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Piano cover generation aims to automatically transform a pop song into a piano arrangement. While numerous deep learning approaches have been proposed, existing models often fail to maintain structural consistency with the original song, likely due to the absence of beat-aware mechanisms or the difficulty of modeling complex rhythmic patterns. Rhythmic information is crucial, as it defines structural similarity (e.g., tempo, BPM) and directly impacts the overall quality of the generated music. In this paper, we introduce Etude, a three-stage architecture consisting of Extract, strucTUralize, and DEcode stages. By pre-extracting rhythmic information and applying a novel, simplified REMI-based tokenization, our model produces covers that preserve proper song structure, enhance fluency and musical dynamics, and support highly controllable generation through style injection. Subjective evaluations with human listeners show that Etude substantially outperforms prior models, achieving a quality level comparable to that of human composers.
- Abstract(参考訳): ピアノカバー生成は、ポップソングをピアノアレンジメントに変換することを目的としている。
多くのディープラーニングアプローチが提案されているが、既存のモデルは、ビート認識機構の欠如や複雑なリズムパターンのモデル化の難しさなど、オリジナルの曲と構造的な整合性を維持することができないことが多い。
構造的類似性(例えば、テンポ、BPM)を定義し、生成された音楽の全体的な品質に直接影響を与えるため、リズム情報は不可欠です。
本稿では,抽出,ストラクタライズ,復号の3段階アーキテクチャであるEtudeを紹介する。
リズミカル情報を事前抽出し、REMIベースのトークン化を簡略化することにより、適切な楽曲構造を保ち、流音と音楽のダイナミクスを向上し、スタイルインジェクションによる高制御可能な生成をサポートするカバーを生産する。
人間の聴取者による主観的評価は、エチュードが先行モデルを大幅に上回り、人間の作曲家に匹敵する品質水準に達することを示している。
関連論文リスト
- Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training [4.7205815347741185]
広義のコーパスから学んだ一般的な音楽知識が、特定の作曲家スタイルの熟達度をいかに高めるかを検討する。
まず、ポップ、フォーク、クラシック音楽の大規模なコーパス上で、REMIベースの音楽生成モデルを事前訓練する。
そして、Bach、Mozart、Beethoven、Chopinの4人の著名な作曲家による、人間によって検証された小さなデータセットに、それを微調整します。
論文 参考訳(メタデータ) (2025-06-20T22:20:59Z) - Synthesizing Composite Hierarchical Structure from Symbolic Music Corpora [32.18458296933001]
構造時間グラフ(STG)と呼ばれる音楽構造の統一的階層的メタ表現を提案する。
シングルピースの場合、STGは、より微細な構造的音楽的特徴の階層構造とそれらの間の時間的関係を定義するデータ構造である。
論文 参考訳(メタデータ) (2025-02-21T02:32:29Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Motifs, Phrases, and Beyond: The Modelling of Structure in Symbolic
Music Generation [2.8062498505437055]
音楽構造をモデル化することは、シンボリック・ミュージック・コンポジションを生成する人工知能システムにとって重要な課題である。
本稿では,コヒーレント構造を取り入れた手法の進化を概観する。
我々は,すべての時代のアプローチを組み合わせることによる相乗効果を実現するために,いくつかの重要な方向性を概説する。
論文 参考訳(メタデータ) (2024-03-12T18:03:08Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Learning Interpretable Representation for Controllable Polyphonic Music
Generation [5.01266258109807]
我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。
このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
論文 参考訳(メタデータ) (2020-08-17T07:11:16Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。