Fugu-MT 論文翻訳(概要): ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement

論文の概要: ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement

arxiv url: http://arxiv.org/abs/2502.04522v1
Date: Thu, 06 Feb 2025 21:45:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.942353
Title: ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement
Title（参考訳）: ImprovNet: 反復的破壊リファインメントによる制御可能な音楽改善の生成
Authors: Keshav Bhandari, Sungkyun Chang, Tongyu Lu, Fareza R. Enus, Louis B. Bradshaw, Dorien Herremans, Simon Colton,
Abstract要約: ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
参考スコア（独自算出の注目度）: 6.873190001575463
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning has enabled remarkable advances in style transfer across various domains, offering new possibilities for creative content generation. However, in the realm of symbolic music, generating controllable and expressive performance-level style transfers for complete musical works remains challenging due to limited datasets, especially for genres such as jazz, and the lack of unified models that can handle multiple music generation tasks. This paper presents ImprovNet, a transformer-based architecture that generates expressive and controllable musical improvisations through a self-supervised corruption-refinement training strategy. ImprovNet unifies multiple capabilities within a single model: it can perform cross-genre and intra-genre improvisations, harmonize melodies with genre-specific styles, and execute short prompt continuation and infilling tasks. The model's iterative generation framework allows users to control the degree of style transfer and structural similarity to the original composition. Objective and subjective evaluations demonstrate ImprovNet's effectiveness in generating musically coherent improvisations while maintaining structural relationships with the original pieces. The model outperforms Anticipatory Music Transformer in short continuation and infilling tasks and successfully achieves recognizable genre conversion, with 79\% of participants correctly identifying jazz-style improvisations. Our code and demo page can be found at https://github.com/keshavbhandari/improvnet.
Abstract（参考訳）: 深層学習は、様々な領域をまたがるスタイルトランスファーの顕著な進歩を可能にし、クリエイティブなコンテンツ生成の新しい可能性を提供してきた。しかし、シンボリック音楽の領域では、特にジャズのようなジャンルの限られたデータセットや、複数の音楽生成タスクを扱える統一モデルがないため、完全な音楽作品に対して制御可能で表現可能な演奏レベルのスタイル転送を生成することは依然として困難である。本稿では,自己監督型汚職補充訓練を通じて表現的かつ制御可能な即興演奏を生成可能なトランスフォーマーベースアーキテクチャである ImprovNet を提案する。 ImprovNetは1つのモデル内で複数の機能を統合する。クロスジェネリとイントラジェネリゼーションを実行し、ジャンル固有のスタイルでメロディを調和させ、短いプロンプト継続とインフィルタスクを実行する。モデルの反復生成フレームワークは、ユーザがスタイル転送の程度と、オリジナルの構成と構造的類似性を制御することができる。目的的および主観的な評価は、オリジナル作品との構造的関係を維持しつつ、音楽的に一貫性のある即興性を生み出すことにおける ImprovNet の有効性を示す。このモデルは、短い継続と補聴作業において予測音楽変換器より優れており、79\%の参加者がジャズスタイルの即興演奏を正しく識別し、認識可能なジャンル変換を実現している。私たちのコードとデモページはhttps://github.com/keshavbhandari/improvnet.comにある。

関連論文リスト

From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training [4.7205815347741185]
広義のコーパスから学んだ一般的な音楽知識が、特定の作曲家スタイルの熟達度をいかに高めるかを検討する。まず、ポップ、フォーク、クラシック音楽の大規模なコーパス上で、REMIベースの音楽生成モデルを事前訓練する。そして、Bach、Mozart、Beethoven、Chopinの4人の著名な作曲家による、人間によって検証された小さなデータセットに、それを微調整します。
論文参考訳（メタデータ） (2025-06-20T22:20:59Z)
Adaptive Accompaniment with ReaLchords [60.690020661819055]
ユーザのメロディに合わせてコード伴奏を即興するオンライン生成モデルであるReaLchordsを提案する。まず、最大で事前訓練されたオンラインモデルから始め、強化学習を使用して、オンライン使用のためのモデルを微調整します。
論文参考訳（メタデータ） (2025-06-17T16:59:05Z)
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.643965544581683]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-25T12:51:21Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文参考訳（メタデータ） (2024-10-06T16:04:05Z)
Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文参考訳（メタデータ） (2024-07-31T23:27:27Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文参考訳（メタデータ） (2023-10-29T22:51:49Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
Multi-Genre Music Transformer -- Composing Full Length Musical Piece [0.0]
このプロジェクトの目的は,より適応的な学習プロセスを通じて楽曲の制作を学ぶマルチジェネラルトランスフォーマーを実装することである。我々は多言語複合語データセットを構築し、このデータセットに基づいて訓練した線形変換器を実装した。私たちはこのMulti-Genre Transformerと呼んでいます。
論文参考訳（メタデータ） (2023-01-06T05:27:55Z)
Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach [36.49582705724548]
まずリードシートを構成する2段階のTransformerベースのフレームワークを考案し,それを伴奏と表現力のあるタッチで実装する。目的および主観的な実験により,コンポジション・アンド・エンベリッシュは芸術の現在の状態と実演の間の構造的ギャップを半分に縮め,豊かさやコヒーレンスといった他の音楽的側面も改善することが示された。
論文参考訳（メタデータ） (2022-09-17T01:20:59Z)
The Power of Reuse: A Multi-Scale Transformer Model for Structural Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2022-05-17T18:48:14Z)
SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文参考訳（メタデータ） (2022-03-25T09:42:11Z)
Controllable deep melody generation via hierarchical music structure representation [14.891975420982511]
MusicFrameworksは階層的な音楽構造表現であり、フル長のメロディを作成するための多段階の生成プロセスである。各フレーズでメロディを生成するために、2つの異なるトランスフォーマーベースネットワークを用いてリズムとベーシックメロディを生成する。さまざまな曲をカスタマイズしたり追加したりするために、音楽フレームワークのコード、基本的なメロディ、リズム構造を変更して、それに応じてネットワークがメロディを生成する。
論文参考訳（メタデータ） (2021-09-02T01:31:14Z)
Learning Interpretable Representation for Controllable Polyphonic Music Generation [5.01266258109807]
我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
論文参考訳（メタデータ） (2020-08-17T07:11:16Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。