論文の概要: Remix the Timbre: Diffusion-Based Style Transfer Across Polyphonic Stems
- arxiv url: http://arxiv.org/abs/2605.09259v1
- Date: Sun, 10 May 2026 02:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.148745
- Title: Remix the Timbre: Diffusion-Based Style Transfer Across Polyphonic Stems
- Title(参考訳): Remix the Timbre: Diffusion-based Style Transfer Across Polyphonic Stems
- Authors: Leduo Chen, Junchuan Zhao, Shengchen Li,
- Abstract要約: 音素移動は、オリジナルのメロディとリズムを保ちながら、音楽録音の音節的アイデンティティを変更することを目的としている。
本稿では,ポリフォニック混合物から直接,音節ごとの音色伝達を柔軟に行うシステムを提案する。
- 参考スコア(独自算出の注目度): 4.026288999965451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Timbre transfer aims to modify the timbral identity of a musical recording while preserving the original melody and rhythm. While single-instrument timbre transfer has made substantial progress, existing approaches to multi-instrument settings rely on separate-then-transfer pipelines that propagate source separation artifacts and produce incoherent synthesized timbres across stems. This paper proposes MixtureTT, to the best of our knowledge the first system for flexible per-stem timbre transfer directly from a polyphonic mixture. Given a mixture and a separate timbre reference for each target voice, MixtureTT jointly transfers all stems to the specified instruments through a shared diffusion process. Modeling the dependencies across the per-stem content and cross-stem harmonic, the proposed joint stem diffusion transformer eliminates cascaded separation error, reduces inference cost by a factor equal to the number of stems, and yields more coherent multi-stem outputs. Despite operating under a strictly harder input condition, evaluations on the SATB choral dataset show that MixtureTT outperforms single-instrument baselines on both objective and subjective metrics demonstrating the necessity of dedicated multi-instrument timbre transfer over the naive separate-then-transfer pipelines. As a result, this work confirms that the cross-stem modeling is essential for mixture-level timbre transfer as the proposed joint setting consistently exceeds an equivalent single-stem ablation.
- Abstract(参考訳): 音素移動は、オリジナルのメロディとリズムを保ちながら、音楽録音の音節的アイデンティティを変更することを目的としている。
シングルインストルメントの音色伝達は大きな進歩を遂げているが、既存のマルチインストルメント設定へのアプローチは、ソース分離アーティファクトを伝播し、ステムをまたいだ非コヒーレントな合成音色を発生させる分離トランスファーパイプラインに依存している。
本稿では,MixtureTTを提案する。このMixtureTTは,ポリフォニックミキシングから直接,音節ごとの音色を柔軟に伝達する最初のシステムである。
混合音と個別の音色基準が各対象音声に対して与えられた場合、MixtureTTは共有拡散過程を通じて、すべての茎を所定の楽器に共同で転送する。
コンテント間およびクロスステムハーモニック間の依存関係をモデル化し、提案したジョイントステム拡散トランスフォーマーはカスケード分離誤差を排除し、ステム数に等しい係数による推論コストを低減し、よりコヒーレントなマルチステム出力を得る。
厳密な入力条件下での運用にもかかわらず、SATB合唱データセットによる評価では、MixtureTTは、主観的および主観的な測定値の両方で単一構成のベースラインよりも優れており、本パイプライン上での専用マルチ構成の音色伝達の必要性が示されている。
その結果, 混合レベルの音色伝達にはクロスステムモデリングが不可欠であることが確認された。
関連論文リスト
- Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Stemphonic: All-at-once Flexible Multi-stem Music Generation [15.126857537352182]
音楽のステム生成により、ユーザーコントロールが向上し、ミュージシャンとの整合性が向上する。
本稿では,1つの推論パスで同期された幹の可変集合を生成する拡散/フローベースのフレームワークであるStemphonicを提案する。
フルミックス生成過程を25~50%加速させながら, 高品質な出力が得られることを示す。
論文 参考訳(メタデータ) (2026-02-10T15:30:12Z) - Diffusion-Guided Mask-Consistent Paired Mixing for Endoscopic Image Segmentation [57.37991748282666]
本稿では, 試料混合と拡散合成の強度を融合した拡散誘導型パラダイムを提案する。
各実画像について、合成対を同じマスクの下で生成し、その対をマスク一貫性ペアドミキシング(MCPMix)の制御可能な入力として使用する。
これは、共有幾何学の下で合成および実際の外観を円滑にブリッジする中間サンプルの連続的な族を生成する。
論文 参考訳(メタデータ) (2025-11-05T06:14:19Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer [23.167490364656654]
音楽の音色伝達は、メロディック構造を保ちながら、音声信号の音色特性を変更することを伴う。
本稿では,CocoChoralesデータセットを用いて訓練した二層拡散ブリッジに基づく新しい手法を提案する。
Fr'echet Audio Distance (FAD) とメロディ保存をVAEGANとGFBと比較して低ピッチ距離 (DPD) で再現できることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-09T22:16:48Z) - DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation [21.06957311285177]
DisMixは、ソースのメロディと楽器を構築するためのビルディングブロックとして、ピッチと音色の表現が機能する生成フレームワークである。
表現の操作により, モデルサンプルは, 構成楽器のピッチと音色の組み合わせとを混合する。
音源レベル表現の集合に条件付き混合を再構成する非絡み合ったピッチ音色表現と潜時拡散変換器を共同で学習することができる。
論文 参考訳(メタデータ) (2024-08-20T12:56:49Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Unsupervised Sound Separation Using Mixture Invariant Training [38.0680944898427]
音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
特に,残響混合を組み込むことで残響分離性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-23T02:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。