Fugu-MT 論文翻訳(概要): DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation

論文の概要: DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation

arxiv url: http://arxiv.org/abs/2408.10807v1
Date: Tue, 20 Aug 2024 12:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 13:45:16.774041
Title: DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation
Title（参考訳）: DisMix:ソースレベルのピッチと音色操作のための楽器のディエンタングリングミックス
Authors: Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Toshimitsu Uesaka, Keisuke Toyama, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Wei-Hsiang Liao, Simon Dixon, Yuki Mitsufuji,
Abstract要約: DisMixは、ソースのメロディと楽器を構築するためのビルディングブロックとして、ピッチと音色の表現が機能する生成フレームワークである。表現の操作により, モデルサンプルは, 構成楽器のピッチと音色の組み合わせとを混合する。音源レベル表現の集合に条件付き混合を再構成する非絡み合ったピッチ音色表現と潜時拡散変換器を共同で学習することができる。
参考スコア（独自算出の注目度）: 21.06957311285177
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing work on pitch and timbre disentanglement has been mostly focused on single-instrument music audio, excluding the cases where multiple instruments are presented. To fill the gap, we propose DisMix, a generative framework in which the pitch and timbre representations act as modular building blocks for constructing the melody and instrument of a source, and the collection of which forms a set of per-instrument latent representations underlying the observed mixture. By manipulating the representations, our model samples mixtures with novel combinations of pitch and timbre of the constituent instruments. We can jointly learn the disentangled pitch-timbre representations and a latent diffusion transformer that reconstructs the mixture conditioned on the set of source-level representations. We evaluate the model using both a simple dataset of isolated chords and a realistic four-part chorales in the style of J.S. Bach, identify the key components for the success of disentanglement, and demonstrate the application of mixture transformation based on source-level attribute manipulation.
Abstract（参考訳）: 既存の音程と音色のゆがみに関する研究は、複数の楽器が提示される場合を除いて、主にシングルインストゥルメント音楽オーディオに焦点を当てている。このギャップを埋めるために、ソースのメロディと楽器を構築するためのモジュラー構造ブロックとしてピッチと音色表現が機能する生成フレームワークであるDisMixを提案し、その集合は、観測された混合物の基盤となる、構成単位毎の潜在表現の集合を形成する。表現の操作により, モデルサンプルは, 構成楽器のピッチと音色の組み合わせとを混合する。音源レベル表現の集合に条件付き混合を再構成する非絡み合ったピッチ音色表現と潜時拡散変換器を共同で学習することができる。本研究では,J.S. Bach スタイルの単純なコード集合と現実的な4パート合唱の両方を用いてモデルを評価し,アンタングルメントの成功の鍵となる要素を同定し,ソースレベルの属性操作に基づく混合変換の適用性を実証する。

関連論文リスト

Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music [8.468436398420764]
音源分離は、楽器の混合物を構成トラックに分離する作業である。本稿では,楽譜の分離を支援する2つの方法として,楽譜情報モデルと楽譜情報のみのモデルを提案する。スコアインフォームドモデルは、ベースラインアプローチと比較して分離結果を改善するが、合成データから実データへの一般化に苦慮する。
論文参考訳（メタデータ） (2025-03-10T14:08:31Z)
Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-01-27T16:13:50Z)
Subtractive Training for Music Stem Insertion using Latent Diffusion Models [35.91945598575059]
本稿では,他の楽器を文脈として与えた個々の楽器茎を合成する方法であるSubtractive Trainingを提案する。以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。我々はこの技術をMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品をうまく生成する。
論文参考訳（メタデータ） (2024-06-27T16:59:14Z)
PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。 PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文参考訳（メタデータ） (2023-12-19T17:01:58Z)
Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文参考訳（メタデータ） (2023-09-21T17:44:57Z)
Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文参考訳（メタデータ） (2023-02-04T23:18:36Z)
A-Muze-Net: Music Generation by Composing the Harmony based on the Generated Melody [91.22679787578438]
ピアノ音楽のMidiファイルを生成する方法を提案する。この方法は、左手を右手に固定した2つのネットワークを用いて、左右の手をモデル化する。ミディは音階に不変な方法で表現され、メロディはハーモニーを調和させる目的で表現される。
論文参考訳（メタデータ） (2021-11-25T09:45:53Z)
A Unified Model for Zero-shot Music Source Separation, Transcription and Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文参考訳（メタデータ） (2021-08-07T14:28:21Z)
Thompson Sampling with a Mixture Prior [59.211830005673896]
混合分布から不確実な環境をサンプリングするオンライン意思決定問題において,トンプソンサンプリング(TS)について検討した。我々は,TSの後悔を先行して解析する,新しい一般的な手法を開発した。
論文参考訳（メタデータ） (2021-06-10T09:21:07Z)
Modeling the Compatibility of Stem Tracks to Generate Music Mashups [6.922825755771942]
音楽マッシュアップは、2つ以上の曲のオーディオ要素を組み合わせて新しい作品を作成する。研究は、オーディオ要素の互換性を予測するアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-03-26T01:51:11Z)
Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。合成音声は、対象楽器の音色及び調音を模倣する。
論文参考訳（メタデータ） (2020-08-30T05:27:39Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文参考訳（メタデータ） (2020-07-13T12:35:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。