論文の概要: ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement
- arxiv url: http://arxiv.org/abs/2502.04522v1
- Date: Thu, 06 Feb 2025 21:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:36.732005
- Title: ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement
- Title(参考訳): ImprovNet: 反復的破壊リファインメントによる制御可能な音楽改善の生成
- Authors: Keshav Bhandari, Sungkyun Chang, Tongyu Lu, Fareza R. Enus, Louis B. Bradshaw, Dorien Herremans, Simon Colton,
- Abstract要約: ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。
ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
- 参考スコア(独自算出の注目度): 6.873190001575463
- License:
- Abstract: Deep learning has enabled remarkable advances in style transfer across various domains, offering new possibilities for creative content generation. However, in the realm of symbolic music, generating controllable and expressive performance-level style transfers for complete musical works remains challenging due to limited datasets, especially for genres such as jazz, and the lack of unified models that can handle multiple music generation tasks. This paper presents ImprovNet, a transformer-based architecture that generates expressive and controllable musical improvisations through a self-supervised corruption-refinement training strategy. ImprovNet unifies multiple capabilities within a single model: it can perform cross-genre and intra-genre improvisations, harmonize melodies with genre-specific styles, and execute short prompt continuation and infilling tasks. The model's iterative generation framework allows users to control the degree of style transfer and structural similarity to the original composition. Objective and subjective evaluations demonstrate ImprovNet's effectiveness in generating musically coherent improvisations while maintaining structural relationships with the original pieces. The model outperforms Anticipatory Music Transformer in short continuation and infilling tasks and successfully achieves recognizable genre conversion, with 79\% of participants correctly identifying jazz-style improvisations. Our code and demo page can be found at https://github.com/keshavbhandari/improvnet.
- Abstract(参考訳): 深層学習は、様々な領域をまたがるスタイルトランスファーの顕著な進歩を可能にし、クリエイティブなコンテンツ生成の新しい可能性を提供してきた。
しかし、シンボリック音楽の領域では、特にジャズのようなジャンルの限られたデータセットや、複数の音楽生成タスクを扱える統一モデルがないため、完全な音楽作品に対して制御可能で表現可能な演奏レベルのスタイル転送を生成することは依然として困難である。
本稿では,自己監督型汚職補充訓練を通じて表現的かつ制御可能な即興演奏を生成可能なトランスフォーマーベースアーキテクチャである ImprovNet を提案する。
ImprovNetは1つのモデル内で複数の機能を統合する。クロスジェネリとイントラジェネリゼーションを実行し、ジャンル固有のスタイルでメロディを調和させ、短いプロンプト継続とインフィルタスクを実行する。
モデルの反復生成フレームワークは、ユーザがスタイル転送の程度と、オリジナルの構成と構造的類似性を制御することができる。
目的的および主観的な評価は、オリジナル作品との構造的関係を維持しつつ、音楽的に一貫性のある即興性を生み出すことにおける ImprovNet の有効性を示す。
このモデルは、短い継続と補聴作業において予測音楽変換器より優れており、79\%の参加者がジャズスタイルの即興演奏を正しく識別し、認識可能なジャンル変換を実現している。
私たちのコードとデモページはhttps://github.com/keshavbhandari/improvnet.comにある。
関連論文リスト
- SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Multi-Genre Music Transformer -- Composing Full Length Musical Piece [0.0]
このプロジェクトの目的は,より適応的な学習プロセスを通じて楽曲の制作を学ぶマルチジェネラルトランスフォーマーを実装することである。
我々は多言語複合語データセットを構築し、このデータセットに基づいて訓練した線形変換器を実装した。
私たちはこのMulti-Genre Transformerと呼んでいます。
論文 参考訳(メタデータ) (2023-01-06T05:27:55Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。
本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。
本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文 参考訳(メタデータ) (2022-03-25T09:42:11Z) - Learning Interpretable Representation for Controllable Polyphonic Music
Generation [5.01266258109807]
我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。
このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
論文 参考訳(メタデータ) (2020-08-17T07:11:16Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。