論文の概要: Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.15530v1
- Date: Wed, 18 Jun 2025 15:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.704941
- Title: Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models
- Title(参考訳): Diff-TONE:テキスト-音楽拡散モデルにおけるiNstrument編集のタイムステップ最適化
- Authors: Teysir Baoueb, Xiaoyu Bie, Xi Wang, Gaël Richard,
- Abstract要約: 本稿では,既存のテキスト・音楽拡散モデルの楽器編集への応用について検討する。
具体的には、既存のオーディオトラックに対して、事前訓練されたテキストから音楽への拡散モデルを利用して、基礎となるコンテンツを保存しながら、楽器を編集することを目的とする。
本手法では,テキストから音楽への拡散モデルのさらなる学習は必要とせず,生成過程の速度を損なうこともない。
- 参考スコア(独自算出の注目度): 13.29289368130043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Breakthroughs in text-to-music generation models are transforming the creative landscape, equipping musicians with innovative tools for composition and experimentation like never before. However, controlling the generation process to achieve a specific desired outcome remains a significant challenge. Even a minor change in the text prompt, combined with the same random seed, can drastically alter the generated piece. In this paper, we explore the application of existing text-to-music diffusion models for instrument editing. Specifically, for an existing audio track, we aim to leverage a pretrained text-to-music diffusion model to edit the instrument while preserving the underlying content. Based on the insight that the model first focuses on the overall structure or content of the audio, then adds instrument information, and finally refines the quality, we show that selecting a well-chosen intermediate timestep, identified through an instrument classifier, yields a balance between preserving the original piece's content and achieving the desired timbre. Our method does not require additional training of the text-to-music diffusion model, nor does it compromise the generation process's speed.
- Abstract(参考訳): テキストから音楽への生成モデルにおけるブレークスルーは、クリエイティブな風景を変革し、ミュージシャンに作曲と実験のための革新的なツールをかつてないほど備えている。
しかし、特定の望ましい結果を達成するために生成プロセスを制御することは、依然として大きな課題である。
テキストプロンプトの小さな変更も、同じランダムなシードと組み合わせることで、生成された部分を大幅に変更することができる。
本稿では,既存のテキスト・音楽拡散モデルの楽器編集への応用について検討する。
具体的には、既存のオーディオトラックに対して、事前訓練されたテキストから音楽への拡散モデルを利用して、基礎となるコンテンツを保存しながら、楽器を編集することを目的とする。
モデルがまず音声の全体構造や内容に焦点をあて、次に楽器情報を加え、最後に音質を改良するという知見に基づいて、楽器分類器によって識別された良質な中間時間ステップを選択すると、原曲の内容の保存と所望の音質の達成のバランスがとれることを示す。
本手法では,テキストから音楽への拡散モデルのさらなる学習は必要とせず,生成過程の速度を損なうこともない。
関連論文リスト
- SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。
注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文 参考訳(メタデータ) (2024-05-28T17:27:20Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。