論文の概要: DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation
- arxiv url: http://arxiv.org/abs/2408.10807v1
- Date: Tue, 20 Aug 2024 12:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 13:45:16.774041
- Title: DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation
- Title(参考訳): DisMix:ソースレベルのピッチと音色操作のための楽器のディエンタングリングミックス
- Authors: Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Toshimitsu Uesaka, Keisuke Toyama, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Wei-Hsiang Liao, Simon Dixon, Yuki Mitsufuji,
- Abstract要約: DisMixは、ソースのメロディと楽器を構築するためのビルディングブロックとして、ピッチと音色の表現が機能する生成フレームワークである。
表現の操作により, モデルサンプルは, 構成楽器のピッチと音色の組み合わせとを混合する。
音源レベル表現の集合に条件付き混合を再構成する非絡み合ったピッチ音色表現と潜時拡散変換器を共同で学習することができる。
- 参考スコア(独自算出の注目度): 21.06957311285177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work on pitch and timbre disentanglement has been mostly focused on single-instrument music audio, excluding the cases where multiple instruments are presented. To fill the gap, we propose DisMix, a generative framework in which the pitch and timbre representations act as modular building blocks for constructing the melody and instrument of a source, and the collection of which forms a set of per-instrument latent representations underlying the observed mixture. By manipulating the representations, our model samples mixtures with novel combinations of pitch and timbre of the constituent instruments. We can jointly learn the disentangled pitch-timbre representations and a latent diffusion transformer that reconstructs the mixture conditioned on the set of source-level representations. We evaluate the model using both a simple dataset of isolated chords and a realistic four-part chorales in the style of J.S. Bach, identify the key components for the success of disentanglement, and demonstrate the application of mixture transformation based on source-level attribute manipulation.
- Abstract(参考訳): 既存の音程と音色のゆがみに関する研究は、複数の楽器が提示される場合を除いて、主にシングルインストゥルメント音楽オーディオに焦点を当てている。
このギャップを埋めるために、ソースのメロディと楽器を構築するためのモジュラー構造ブロックとしてピッチと音色表現が機能する生成フレームワークであるDisMixを提案し、その集合は、観測された混合物の基盤となる、構成単位毎の潜在表現の集合を形成する。
表現の操作により, モデルサンプルは, 構成楽器のピッチと音色の組み合わせとを混合する。
音源レベル表現の集合に条件付き混合を再構成する非絡み合ったピッチ音色表現と潜時拡散変換器を共同で学習することができる。
本研究では,J.S. Bach スタイルの単純なコード集合と現実的な4パート合唱の両方を用いてモデルを評価し,アンタングルメントの成功の鍵となる要素を同定し,ソースレベルの属性操作に基づく混合変換の適用性を実証する。
関連論文リスト
- Subtractive Training for Music Stem Insertion using Latent Diffusion Models [35.91945598575059]
本稿では,他の楽器を文脈として与えた個々の楽器茎を合成する方法であるSubtractive Trainingを提案する。
以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。
我々はこの技術をMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品をうまく生成する。
論文 参考訳(メタデータ) (2024-06-27T16:59:14Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - A-Muze-Net: Music Generation by Composing the Harmony based on the
Generated Melody [91.22679787578438]
ピアノ音楽のMidiファイルを生成する方法を提案する。
この方法は、左手を右手に固定した2つのネットワークを用いて、左右の手をモデル化する。
ミディは音階に不変な方法で表現され、メロディはハーモニーを調和させる目的で表現される。
論文 参考訳(メタデータ) (2021-11-25T09:45:53Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - Thompson Sampling with a Mixture Prior [59.211830005673896]
混合分布から不確実な環境をサンプリングするオンライン意思決定問題において,トンプソンサンプリング(TS)について検討した。
我々は,TSの後悔を先行して解析する,新しい一般的な手法を開発した。
論文 参考訳(メタデータ) (2021-06-10T09:21:07Z) - Modeling the Compatibility of Stem Tracks to Generate Music Mashups [6.922825755771942]
音楽マッシュアップは、2つ以上の曲のオーディオ要素を組み合わせて新しい作品を作成する。
研究は、オーディオ要素の互換性を予測するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-26T01:51:11Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。