論文の概要: LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation
- arxiv url: http://arxiv.org/abs/2506.11476v1
- Date: Fri, 13 Jun 2025 05:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.66524
- Title: LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation
- Title(参考訳): LiLAC:音楽オーディオ生成のための軽量遅延制御ネット
- Authors: Tom Baker, Javier Nistal,
- Abstract要約: ControlNetは、新しいコンディショニングにエンコーダをクローンして微調整することで、事前訓練された生成モデルに外部コントロールをアタッチできる。
そこで本研究では,ControlNetとオーディオ品質とコンディションの整合性を両立させながら,パラメータ数を著しく削減する軽量なモジュールアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-audio diffusion models produce high-quality and diverse music but many, if not most, of the SOTA models lack the fine-grained, time-varying controls essential for music production. ControlNet enables attaching external controls to a pre-trained generative model by cloning and fine-tuning its encoder on new conditionings. However, this approach incurs a large memory footprint and restricts users to a fixed set of controls. We propose a lightweight, modular architecture that considerably reduces parameter count while matching ControlNet in audio quality and condition adherence. Our method offers greater flexibility and significantly lower memory usage, enabling more efficient training and deployment of independent controls. We conduct extensive objective and subjective evaluations and provide numerous audio examples on the accompanying website at https://lightlatentcontrol.github.io
- Abstract(参考訳): テキストからオーディオへの拡散モデルは高品質で多様な音楽を生み出すが、ほとんどのSOTAモデルでは、音楽制作に不可欠な細かい時間変化の制御が欠如している。
ControlNetは、新しいコンディショニングにエンコーダをクローンして微調整することで、事前訓練された生成モデルに外部コントロールをアタッチできる。
しかし、このアプローチは大きなメモリフットプリントを引き起こし、ユーザを一定のコントロールセットに制限する。
そこで本研究では,ControlNetとオーディオ品質とコンディションの整合性を両立させながら,パラメータ数を著しく削減する軽量なモジュールアーキテクチャを提案する。
本手法は, より柔軟性が高く, メモリ使用量も大幅に低減し, 独立制御の訓練と展開を効率化する。
我々は広範囲な客観的・主観的な評価を行い, https://lightlatentcontrol.github.ioで付随するWebサイトで多数のオーディオサンプルを提供する。
関連論文リスト
- CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文 参考訳(メタデータ) (2024-10-12T07:04:32Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
論文 参考訳(メタデータ) (2023-10-26T05:24:38Z) - Audio Generation with Multiple Conditional Diffusion Model [15.250081484817324]
本稿では,既存の事前学習型テキスト音声モデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
論文 参考訳(メタデータ) (2023-08-23T06:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。