論文の概要: Diffusion Timbre Transfer Via Mutual Information Guided Inpainting
- arxiv url: http://arxiv.org/abs/2601.01294v1
- Date: Sat, 03 Jan 2026 21:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.172667
- Title: Diffusion Timbre Transfer Via Mutual Information Guided Inpainting
- Title(参考訳): 塗布をガイドした相互情報を用いた拡散音波伝達
- Authors: Ching Ho Lee, Javier Nistal, Stefan Lattner, Marco Pasini, George Fazekas,
- Abstract要約: 音色変換を音声の推測時間編集問題として検討する。
追加のトレーニングを必要としない軽量な手順を導入します。
簡単な推論時間制御は,事前学習したモデルのスタイル変換のユースケースに対して有意義に制御できることを示す。
- 参考スコア(独自算出の注目度): 7.35710565848306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study timbre transfer as an inference-time editing problem for music audio. Starting from a strong pre-trained latent diffusion model, we introduce a lightweight procedure that requires no additional training: (i) a dimension-wise noise injection that targets latent channels most informative of instrument identity, and (ii) an early-step clamping mechanism that re-imposes the input's melodic and rhythmic structure during reverse diffusion. The method operates directly on audio latents and is compatible with text/audio conditioning (e.g., CLAP). We discuss design choices,analyze trade-offs between timbral change and structural preservation, and show that simple inference-time controls can meaningfully steer pre-trained models for style-transfer use cases.
- Abstract(参考訳): 音色変換を音声の推測時間編集問題として検討する。
強力な事前学習型潜伏拡散モデルから始まり、追加の訓練を必要としない軽量な手順を導入する。
一 楽器の同一性が最も情報に耳を傾けるチャンネルをターゲットとした寸法ワイドノイズインジェクション
(ii) 逆拡散中に入力の旋律構造とリズム構造を再生成する早期のクランプ機構。
この方法は音声の潜伏者に直接作用し、テキスト/オーディオの条件付け(例えばCLAP)と互換性がある。
提案手法は, 設計選択や, 音節変化と構造保存のトレードオフを解析し, 簡易な推論時間制御が, 事前学習したモデルに対して有意に制御可能であることを示すものである。
関連論文リスト
- EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer [23.167490364656654]
音楽の音色伝達は、メロディック構造を保ちながら、音声信号の音色特性を変更することを伴う。
本稿では,CocoChoralesデータセットを用いて訓練した二層拡散ブリッジに基づく新しい手法を提案する。
Fr'echet Audio Distance (FAD) とメロディ保存をVAEGANとGFBと比較して低ピッチ距離 (DPD) で再現できることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-09T22:16:48Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。