論文の概要: Low-Resource Guidance for Controllable Latent Audio Diffusion
- arxiv url: http://arxiv.org/abs/2603.04366v1
- Date: Wed, 04 Mar 2026 18:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.453684
- Title: Low-Resource Guidance for Controllable Latent Audio Diffusion
- Title(参考訳): 制御可能な遅延オーディオ拡散のための低リソース誘導
- Authors: Zachary Novack, Zack Zukowski, CJ Carr, Julian Parker, Zach Evans, Josiah Taylor, Taylor Berg-Kirkpatrick, Julian McAuley, Jordi Pons,
- Abstract要約: 選択的TFGとLatnt-Control Heads(LatCH)によるガイダンスに基づくアプローチを提案する。
LatCHは遅延スペースで直接動作し、高価なデコーダのステップを避け、最小限のトレーニングリソースを必要とする。
提案手法は,従来のエンド・ツー・エンドのガイダンスよりも計算コストがはるかに低い精度とオーディオの忠実さのバランスをとる。
- 参考スコア(独自算出の注目度): 46.18959893431643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative audio requires fine-grained controllable outputs, yet most existing methods require model retraining on specific controls or inference-time controls (\textit{e.g.}, guidance) that can also be computationally demanding. By examining the bottlenecks of existing guidance-based controls, in particular their high cost-per-step due to decoder backpropagation, we introduce a guidance-based approach through selective TFG and Latent-Control Heads (LatCHs), which enables controlling latent audio diffusion models with low computational overhead. LatCHs operate directly in latent space, avoiding the expensive decoder step, and requiring minimal training resources (7M parameters and $\approx$ 4 hours of training). Experiments with Stable Audio Open demonstrate effective control over intensity, pitch, and beats (and a combination of those) while maintaining generation quality. Our method balances precision and audio fidelity with far lower computational costs than standard end-to-end guidance. Demo examples can be found at https://zacharynovack.github.io/latch/latch.html.
- Abstract(参考訳): 生成音声はきめ細かい制御が可能な出力を必要とするが、既存のほとんどの手法では、計算的に要求できる特定の制御や推論時間制御(\textit{e g }、ガイダンス)のモデル再訓練を必要とする。
既存の誘導に基づく制御のボトルネック、特にデコーダのバックプロパゲーションによる高コスト化を考慮し、選択的TFGとLatCH(Latnt-Control Heads)によるガイダンスベースのアプローチを導入し、計算オーバーヘッドの少ない遅延音声拡散モデルを制御する。
LatCHは遅延スペースで直接動作し、高価なデコーダのステップを回避し、最小限のトレーニングリソース(7Mパラメータと$\approx$4時間のトレーニング)を必要とする。
安定オーディオオープンの実験は、生成品質を維持しながら、強度、ピッチ、ビート(そしてそれらの組み合わせ)を効果的に制御することを示した。
提案手法は,従来のエンド・ツー・エンドのガイダンスよりも計算コストがはるかに低い精度とオーディオの忠実さのバランスをとる。
デモの例はhttps://zacharynovack.github.io/latch/latch.htmlにある。
関連論文リスト
- EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding [18.199202388702144]
ほとんどの周波数領域のニューラルコーデックは位相情報を無視するか、2つの独立した実数値チャネルとして符号化し、空間的忠実度を制限する。
これは、収束速度と訓練安定性を犠牲にして、敵対的差別者を導入する必要がある。
本研究では,解析量子化合成パイプライン全体にわたる大域的位相結合を保存する,終端から終端までの複雑なRVQ-VAEオーディオを紹介する。
論文 参考訳(メタデータ) (2026-01-24T16:34:07Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - Robust Quantum Control using Reinforcement Learning from Demonstration [13.321147424579065]
システムモデルで生成された制御シーケンスを活用するために,Reinforcement Learning from Demonstration (RLfD) を用いる。
このアプローチはサンプル数を減らしてサンプル効率を高めることができ、トレーニング時間を著しく短縮することができる。
我々はRLfD法を用いて複数の高忠実度非古典状態の生成をシミュレートした。
論文 参考訳(メタデータ) (2025-03-27T02:01:28Z) - Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis [55.00448838152145]
拡散に基づく合成の粒度を効果的に制御するためには,1つのパラメータ$omega$しか必要としないことを示す。
この単純なアプローチでは、モデルの再訓練やアーキテクチャの変更を必要とせず、無視できる計算オーバーヘッドを発生させる。
本手法は,様々な画像および映像合成タスクにおいて印象的な性能を示し,高度な拡散モデルに適用可能である。
論文 参考訳(メタデータ) (2024-11-26T08:23:16Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Unsupervised learning based end-to-end delayless generative fixed-filter
active noise control [22.809445468752262]
遅延のないノイズ制御は、我々の初期の生成固定フィルタアクティブノイズ制御(GFANC)フレームワークによって実現されている。
コプロセッサの1次元畳み込みニューラルネットワーク(1D CNN)は、ラベル付きノイズデータセットを使用した初期トレーニングを必要とする。
本稿では,1次元CNNトレーニングプロセスを簡素化し,その実用性を高めるために,教師なしGFANCアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-08T06:14:12Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Deep Q-learning: a robust control approach [4.125187280299247]
ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-01-21T09:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。