論文の概要: Stylus: Repurposing Stable Diffusion for Training-Free Music Style Transfer on Mel-Spectrograms
- arxiv url: http://arxiv.org/abs/2411.15913v3
- Date: Wed, 24 Sep 2025 06:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.096541
- Title: Stylus: Repurposing Stable Diffusion for Training-Free Music Style Transfer on Mel-Spectrograms
- Title(参考訳): Stylus: メルスペクトログラムを用いた無料音楽スタイル転送のための安定拡散
- Authors: Heehwan Wang, Joonwoo Kwon, Sooyoung Kim, Jungwoo Seo, Shinjae Yoo, Yuewei Lin, Jiook Cha,
- Abstract要約: Stylusは、メル・スペクトログラム領域における音楽スタイルの転送のためのトレーニング不要のフレームワークである。
ソースクエリを保存しながらスタイルキー値の機能を注入することで、自己注意を操作する。
コンテンツ保存率は34.1%、知覚品質は25.7%向上している。
- 参考スコア(独自算出の注目度): 16.911850542311754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music style transfer enables personalized music creation by blending the structure of a source with the stylistic attributes of a reference. Existing text-conditioned and diffusion-based approaches show promise but often require paired datasets, extensive training, or detailed annotations. We present Stylus, a training-free framework that repurposes a pre-trained Stable Diffusion model for music style transfer in the mel-spectrogram domain. Stylus manipulates self-attention by injecting style key-value features while preserving source queries to maintain musical structure. To improve fidelity, we introduce a phase-preserving reconstruction strategy that avoids artifacts from Griffin-Lim reconstruction, and we adopt classifier-free-guidance-inspired control for adjustable stylization and multi-style blending. In extensive evaluations, Stylus outperforms state-of-the-art baselines, achieving 34.1% higher content preservation and 25.7% better perceptual quality without any additional training.
- Abstract(参考訳): 音楽スタイルの転送は、ソースの構造と参照のスタイリスティックな属性をブレンドすることにより、パーソナライズされた音楽作成を可能にする。
既存のテキスト条件と拡散ベースのアプローチは、promiseを示すが、ペア化されたデータセット、広範なトレーニング、詳細なアノテーションを必要とすることが多い。
メル-スペクトログラム領域における音楽スタイル転送のための事前学習された安定拡散モデルを再利用した学習自由フレームワークであるStylusを提案する。
Stylusは、音楽構造を維持するためにソースクエリを保持しながらスタイルキー値の機能を注入することで、自己注意を操作する。
そこで我々は,Griffin-Lim再構成からのアーティファクトを回避する位相保存型再構成戦略を導入し,調整可能なスタイライズとマルチスタイルブレンディングのための分類器自由誘導型制御を採用した。
広範な評価において、スティルスは最先端のベースラインを上回り、34.1%のコンテンツ保存と25.7%の優れた知覚品質を追加トレーニングなしで達成している。
関連論文リスト
- CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization [5.300721419484575]
CleanStyleはプラグイン・アンド・プレイのフレームワークで、コンテンツ関連のノイズをリトレーニングすることなく、スタイルの埋め込みからフィルタリングする。
CleanStyleSVDは、タイムアウェアな指数スケジュールを使用して、テールコンポーネントを動的に抑制する。
SS-CFGはテールコンポーネントを再利用し、スタイル対応の無条件入力を構築する。
論文 参考訳(メタデータ) (2026-02-24T09:33:05Z) - TeleStyle: Content-Preserving Style Transfer in Images and Videos [52.76027947278353]
画像とビデオの両方をスタイリングするための軽量モデルであるTeleStyleを提示する。
異なるスタイルの高品質なデータセットをキュレートし、数千の多様性のあるイン・ザ・ワイルドなスタイルのカテゴリを使用してトリプレットを合成した。
TeleStyleは、スタイルの類似性、コンテントの一貫性、美的品質という、3つの中核評価指標で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-28T02:16:03Z) - Domain Generalizable Portrait Style Transfer [37.85739992959271]
本稿では,入力画像と参照画像との密接なセマンティックな対応性を確立することを提案する。
入力にセマンティックに整合したワープ参照を得る。
スタイルアダプタは、歪んだ参照からスタイルガイダンスを提供するように設計されている。
論文 参考訳(メタデータ) (2025-07-06T04:56:25Z) - Adaptive Accompaniment with ReaLchords [60.690020661819055]
ユーザのメロディに合わせてコード伴奏を即興するオンライン生成モデルであるReaLchordsを提案する。
まず、最大で事前訓練されたオンラインモデルから始め、強化学習を使用して、オンライン使用のためのモデルを微調整します。
論文 参考訳(メタデータ) (2025-06-17T16:59:05Z) - Balanced Image Stylization with Style Matching Score [36.542802101359705]
Style Matching Score (SMS) は拡散モデルを用いた画像スタイリングの新しい最適化手法である。
SMSはスタイルのアライメントとコンテンツ保存のバランスを保ち、最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-03-10T17:58:02Z) - ImprovNet -- Generating Controllable Musical Improvisations with Iterative Corruption Refinement [6.873190001575463]
ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。
ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
論文 参考訳(メタデータ) (2025-02-06T21:45:38Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Transfer Learning for Underrepresented Music Generation [0.9645196221785693]
我々は,イランの民謡を,大規模な生成音楽モデルであるMusicVAEのOODジャンルの例とみなす。
イランのフォーク・ミュージック・データセットにMusicVAEを効率よく適応させることで、将来、あまり表現されていない音楽ジャンルを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-01T01:53:10Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文 参考訳(メタデータ) (2023-05-09T13:38:13Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z) - Self-Supervised VQ-VAE For One-Shot Music Style Transfer [2.6381163133447836]
本稿ではベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張に基づくワンショット音色変換法を提案する。
提案手法は,客観的な指標を用いて評価し,選択した基準線を上回り得ることを示す。
論文 参考訳(メタデータ) (2021-02-10T21:42:49Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Incorporating Music Knowledge in Continual Dataset Augmentation for
Music Generation [69.06413031969674]
Aug-Genは、リソース制約のあるドメインでトレーニングされた任意の音楽生成システムに対するデータセット拡張の方法である。
我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。