論文の概要: The Chamber Ensemble Generator: Limitless High-Quality MIR Data via
Generative Modeling
- arxiv url: http://arxiv.org/abs/2209.14458v1
- Date: Wed, 28 Sep 2022 22:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:22:36.001598
- Title: The Chamber Ensemble Generator: Limitless High-Quality MIR Data via
Generative Modeling
- Title(参考訳): チャンバーアンサンブル生成器:生成モデルによる限界なし高品質ミールデータ
- Authors: Yusong Wu, Josh Gardner, Ethan Manilow, Ian Simon, Curtis Hawthorne,
Jesse Engel
- Abstract要約: 本稿では,リッチアノテーションを付加した無制限のリアル・コーラル・ミュージックを制作できるシステムについて述べる。
我々は4つの異なる室内アンサンブルから大規模な合唱曲のデータセットを生成する。
MIRコミュニティにおける今後の作業のためのオープンソース基盤として,システムとデータセットの両方をリリースする。
- 参考スコア(独自算出の注目度): 6.009299746966725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is the lifeblood of modern machine learning systems, including for those
in Music Information Retrieval (MIR). However, MIR has long been mired by small
datasets and unreliable labels. In this work, we propose to break this
bottleneck using generative modeling. By pipelining a generative model of notes
(Coconet trained on Bach Chorales) with a structured synthesis model of chamber
ensembles (MIDI-DDSP trained on URMP), we demonstrate a system capable of
producing unlimited amounts of realistic chorale music with rich annotations
including mixes, stems, MIDI, note-level performance attributes (staccato,
vibrato, etc.), and even fine-grained synthesis parameters (pitch, amplitude,
etc.). We call this system the Chamber Ensemble Generator (CEG), and use it to
generate a large dataset of chorales from four different chamber ensembles
(CocoChorales). We demonstrate that data generated using our approach improves
state-of-the-art models for music transcription and source separation, and we
release both the system and the dataset as an open-source foundation for future
work in the MIR community.
- Abstract(参考訳): データ(Data)は、音楽情報検索(MIR)を含む現代の機械学習システムのライフサイクルである。
しかし、MIRは長い間、小さなデータセットと信頼性の低いラベルによって修正されてきた。
本稿では,生成モデルを用いてこのボトルネックを解消することを提案する。
チャンバーアンサンブル(URMPで訓練されたMIDI-DDSP)の構造化合成モデルを用いて音符生成モデル(バッハ合唱団で訓練されたココネ)をパイプライン化することにより、ミックス、ステム、MIDI、ノートレベルの演奏特性(スタッカト、ビブラートなど)、さらには微粒な合成パラメータ(ピッチ、振幅など)を多量に生成できるシステムを実証する。
このシステムをCEG(Curber Ensemble Generator)と呼び、それを4つの異なる室内アンサンブル(CocoChorales)から大きなコラールのデータセットを生成する。
このアプローチで生成されたデータは,音楽の書き起こしとソース分離の最先端モデルを改善し,mirコミュニティにおける今後の作業のためのオープンソース基盤として,システムとデータセットの両方をリリースする。
関連論文リスト
- Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
本研究は,脳波データを用いた複雑な聴覚情報再構成の実現可能性に関する知見を提供する,ニューラルデコーディングと脳-コンピュータインタフェースの継続的な研究に寄与する。
論文 参考訳(メタデータ) (2024-05-15T03:26:01Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [73.47607237309258]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。
対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。
我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Sound Model Factory: An Integrated System Architecture for Generative
Audio Modelling [4.193940401637568]
2つの異なるニューラルネットワークアーキテクチャを中心に構築されたデータ駆動型音響モデル設計のための新しいシステムを提案する。
本システムの目的は、(a)モデルが合成できるべき音の範囲と、(b)その音の空間をナビゲートするためのパラメトリック制御の仕様を与えられた、インタラクティブに制御可能な音モデルを生成することである。
論文 参考訳(メタデータ) (2022-06-27T07:10:22Z) - Conditional Drums Generation using Compound Word Representations [4.435094091999926]
複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
論文 参考訳(メタデータ) (2022-02-09T13:49:27Z) - SrvfNet: A Generative Network for Unsupervised Multiple Diffeomorphic
Shape Alignment [6.404122934568859]
SrvfNetは、関数データの大規模なコレクションを複数アライメントする、ジェネレーティブなディープラーニングフレームワークである。
提案するフレームワークは完全に教師なしであり,事前定義されたテンプレートに整合すると同時に,データから最適なテンプレートを共同で予測することができる。
我々は, 磁気共鳴画像(MRI)データからの拡散プロファイルだけでなく, 合成データ上で検証することで, フレームワークの強度を実証する。
論文 参考訳(メタデータ) (2021-04-27T19:49:46Z) - Multitask learning for instrument activation aware music source
separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-03T02:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。