論文の概要: SteeringDiffusion: A Bottlenecked Activation Control Interface for Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.01653v1
- Date: Sun, 03 May 2026 00:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.86778
- Title: SteeringDiffusion: A Bottlenecked Activation Control Interface for Diffusion Models
- Title(参考訳): Steering Diffusion: 拡散モデルのためのブートネック型活性化制御インタフェース
- Authors: Fangzheng Wu, Brian Summa,
- Abstract要約: SteeringDiffusionは、拡散モデルのためのボトルネック化されたアクティベーションレベル制御インターフェースである。
ゼロアワード設計は、ゼロスケールでのベースモデルへの正確な同値性を保証する。
安定拡散1.5およびSDXLに関する実験を通じて、ステアリング拡散は滑らかで単調なコンテンツスタイルのトレードオフを生成することを示した。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SteeringDiffusion, a bottlenecked activation-level control interface for diffusion models that exposes a smooth, monotonic, and runtime-adjustable control surface over the content--style trade-off. Our method keeps the U-Net backbone frozen and learns a small, prompt-conditioned latent code projected to FiLM/AdaGN-style modulation parameters. A zero-initialized design guarantees exact equivalence to the base model at zero scale, while timestep-aware gating restricts modulation to later denoising stages. A single scalar at inference continuously traverses the control surface without retraining. Across experiments on Stable Diffusion~1.5 and SDXL covering multiple artistic styles, we show that SteeringDiffusion produces smooth and monotonic content--style trade-offs. Under matched parameter budgets, it outperforms LoRA in controllability and stability, while ControlNet and rank-1 adapters do not expose a comparable control surface. We further introduce an inversion-stability diagnostic based on DDIM inversion, used as a post-hoc trajectory probe, which reveals strong correlations with intervention magnitude. These results position \emph{Steering Bottlenecked Explicit Control (S-BEC)} as a practical, general-purpose control interface for frozen diffusion backbones.
- Abstract(参考訳): 本稿では,拡散モデルのためのボトルネック付きアクティベーションレベル制御インタフェースであるSteeringDiffusionを紹介し,コンテンツスタイルのトレードオフに対してスムーズで単調で実行時調整可能な制御面を公開する。
提案手法は,U-Netのバックボーンを凍結したまま保存し,FiLM/AdaGNスタイルの変調パラメータにプロンプトされた小さな潜伏符号を学習する。
ゼロ初期化設計は、ゼロスケールでのベースモデルとの正確な等価性を保証する一方、タイムステップ対応ゲーティングは、変調を後続のデノイングステージに制限する。
単一のスカラーの推論は、再トレーニングせずに制御面を連続的に横切る。
安定拡散(1.5)およびSDXL(1.5)に関する実験を通じて,ステアリング拡散はスムーズでモノトニックなコンテンツスタイルのトレードオフを生み出すことを示した。
一致したパラメータ予算の下では、制御性と安定性においてLoRAよりも優れており、コントロールネットとランク1アダプタは同等の制御面を公開していない。
さらに, DDIMインバージョンに基づくインバージョン安定性診断を導入し, 干渉の大きさと強い相関関係を示す。
これらの結果から,凍結拡散バックボーンのための実用的汎用制御インタフェースとして,<emph{Steering Bottlenecked Explicit Control (S-BEC) を位置づけた。
関連論文リスト
- Controllable Text-to-Motion Generation via Modular Body-Part Phase Control [25.2003430574182]
テキスト・トゥ・モーション(T2M)生成はアニメーションとインタラクティブなアバターの実用的なツールになりつつある。
構造化された局所的な編集を可能にするプラグイン・アンド・プレイ・フレームワークであるModular Body-Part Phase Controlを提案する。
拡散モデルと流れモデルの両方の実験により、我々の手法は運動の大きさ、速度、タイミングに対する予測可能かつきめ細かい制御を提供することを示した。
論文 参考訳(メタデータ) (2026-03-20T09:37:16Z) - Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer [55.9892973179428]
MoTokは、セマンティックな抽象化をきめ細かな再構築から切り離す離散モーショントークンである。
また,HumanML3Dでは,トークンの6分の1しか使用せず,MaskControl上での制御性と忠実度を大幅に向上する。
論文 参考訳(メタデータ) (2026-03-19T17:59:51Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance [31.552164852288325]
スライディングモード制御CFG(SMC-CFG)を導入する。
SMC-CFGは、様々なガイダンス尺度において、セマンティックアライメントとロバストネスにおいて標準CFGを上回っている。
論文 参考訳(メタデータ) (2026-03-03T18:59:48Z) - ACD: Direct Conditional Control for Video Diffusion Models via Attention Supervision [62.41380823195191]
本稿では,注意監督による映像拡散モデルにおける直接条件制御のためのフレームワークである,注意継続拡散(Attention-Conditional Diffusion)を提案する。
ACDは、モデルの注意マップと外部制御信号との整列により、より良い制御性を実現する。
ベンチマークビデオ生成データセットの実験は、ACDがコンディショニング入力と優れたアライメントを提供することを示した。
論文 参考訳(メタデータ) (2025-12-24T16:24:18Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer [14.644014499085943]
NanoControlは、制御可能なテキスト・ツー・イメージ生成のためのバックボーンネットワークとしてFluxを使用している。
我々のモデルは、最先端の制御可能なテキスト・ツー・イメージ生成性能を実現する。
パラメータ数は0.024%増加し、GFLOPは0.029%増加し、高効率な制御可能な生成を可能にする。
論文 参考訳(メタデータ) (2025-08-14T07:54:44Z) - Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.37264951734603]
JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文 参考訳(メタデータ) (2025-03-09T15:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。