論文の概要: Stemphonic: All-at-once Flexible Multi-stem Music Generation
- arxiv url: http://arxiv.org/abs/2602.09891v1
- Date: Tue, 10 Feb 2026 15:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.640454
- Title: Stemphonic: All-at-once Flexible Multi-stem Music Generation
- Title(参考訳): Stemphonic:オール・アット・オン・ザ・フレキシブルなマルチステム・ミュージック・ジェネレーション
- Authors: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan,
- Abstract要約: 音楽のステム生成により、ユーザーコントロールが向上し、ミュージシャンとの整合性が向上する。
本稿では,1つの推論パスで同期された幹の可変集合を生成する拡散/フローベースのフレームワークであるStemphonicを提案する。
フルミックス生成過程を25~50%加速させながら, 高品質な出力が得られることを示す。
- 参考スコア(独自算出の注目度): 15.126857537352182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.
- Abstract(参考訳): 音楽的に同期し、分離された楽器のオーディオクリップを作成するタスクである音楽のステム生成は、従来のテキストから音楽へのモデルと比較して、より優れたユーザ制御とミュージシャンのワークフローとの整合性を提供する。
しかし、既存のステム生成アプローチは、事前に定義された一連の茎を並列に出力する固定されたアーキテクチャに依存するか、あるいは一度に1つのステムだけを生成するかのいずれかであり、結果として、ステム結合の柔軟性にもかかわらず推論が遅くなる。
本稿では,このトレードオフを克服し,1つの推論パスで同期ステムの可変セットを生成する拡散/フローベースのフレームワークであるStemphonicを提案する。
訓練中、各茎をバッチ要素として扱い、グループ同期された茎をバッチで処理し、各群に共振雑音を印加する。
Inference-timeでは、1パスで同期されたマルチスタンプ出力を生成するために、共用初期雑音潜時と幹固有のテキスト入力を使用する。
さらに,1パス条件付きマルチステム生成とステムワイズアクティビティ制御により,ユーザに対して,ミックスの時間的階層化を反復的に生成・オーケストレーションできるように,我々のアプローチをさらに拡張する。
我々は,複数のオープンソースステム評価セットをベンチマークし,Stemphonicがハイクオリティな出力を産み出すとともに,フルミックス生成プロセスを25~50%高速化することを示した。
Demos at: https://stemphonic-demo.vercel.app.com
関連論文リスト
- MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning [18.636738208526676]
MM-Sonateは、制御可能な音声とビデオのジョイント生成とゼロショット音声のクローン機能を統合するマルチモーダルフローマッチングフレームワークである。
ゼロショット音声のクローニングを可能にするため,言語コンテンツから話者識別を効果的に分離する分類器注入機構を導入する。
MM-Sonateがジョイントジェネレーションベンチマークで新しい最先端性能を確立していることを示す実証評価を行った。
論文 参考訳(メタデータ) (2026-01-04T15:26:15Z) - Efficient and Fast Generative-Based Singing Voice Separation using a Latent Diffusion Model [12.393086516044866]
本研究では, このギャップを埋めるための拡散モデルの可能性について検討する。
本研究は,声帯と混合音の対に依存する歌唱音声の分離に焦点をあてる。
システムは、コンパクトなラテント空間に符号化されたサンプルを生成し、その後、それらをオーディオに復号する。
論文 参考訳(メタデータ) (2025-11-25T16:34:07Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Modeling the Compatibility of Stem Tracks to Generate Music Mashups [6.922825755771942]
音楽マッシュアップは、2つ以上の曲のオーディオ要素を組み合わせて新しい作品を作成する。
研究は、オーディオ要素の互換性を予測するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-26T01:51:11Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。