論文の概要: Diffusion Controller: Framework, Algorithms and Parameterization
- arxiv url: http://arxiv.org/abs/2603.06981v1
- Date: Sat, 07 Mar 2026 01:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.51706
- Title: Diffusion Controller: Framework, Algorithms and Parameterization
- Title(参考訳): 拡散制御器:フレームワーク、アルゴリズム、パラメータ化
- Authors: Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai,
- Abstract要約: 本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
- 参考スコア(独自算出の注目度): 54.82539154511621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable diffusion generation often relies on various heuristics that are seemingly disconnected without a unified understanding. We bridge this gap with Diffusion Controller (DiffCon), a unified control-theoretic view that casts reverse diffusion sampling as state-only stochastic control within (generalized) linearly-solvable Markov Decision Processes (LS-MDPs). Under this framework, control acts by reweighting the pretrained reverse-time transition kernels, balancing terminal objectives against an $f$-divergence cost. From the resulting optimality conditions, we derive practical reinforcement learning methods for diffusion fine-tuning: (i) f-divergence-regularized policy-gradient updates, including a PPO-style rule, and (ii) a regularizer-determined reward-weighted regression objective with a minimizer-preservation guarantee under the Kullback-Leibler (KL) divergence. The LS-MDP framework further implies a principled model form: the optimal score decomposes into a fixed pretrained baseline plus a lightweight control correction, motivating a side-network parameterization conditioned on exposed intermediate denoising outputs, enabling effective gray-box adaptation with a frozen backbone. Experiments on Stable Diffusion v1.4 across supervised and reward-driven finetuning show consistent gains in preference-alignment win rates and improved quality-efficiency trade-offs versus gray-box baselines and even the parameter-efficient white-box adapter LoRA.
- Abstract(参考訳): 制御可能な拡散生成は、統一的な理解なしに、一見非連結であるように見える様々なヒューリスティックに依存していることが多い。
このギャップをDiffusion Controller (DiffCon) で埋める。これは逆拡散サンプリングを(一般化された)線形解決可能なマルコフ決定プロセス (LS-MDP) 内の状態のみの確率制御として利用する統一的な制御理論である。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
得られた最適条件から拡散微調整のための実践的強化学習法を導出する。
(i)PPOスタイルルールを含むf分割規則付き政策段階更新
(II)KL(Kulback-Leibler)分散下での最小保存保証を有する正則化器決定型報酬重み付き回帰目標。
最適スコアは、固定された事前訓練されたベースラインと軽量な制御補正に分解され、露呈した中間復調出力に条件付けられたサイドネットワークパラメータ化を動機付け、凍結したバックボーンによる効果的なグレーボックス適応を可能にする。
教師付きおよび報酬駆動の微調整による安定拡散v1.4の実験では、優先調整の勝利率が一貫した向上を示し、グレーボックスベースラインに対する品質効率のトレードオフを改善し、パラメータ効率のよいホワイトボックスアダプタLoRAさえも改善した。
関連論文リスト
- CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance [31.552164852288325]
スライディングモード制御CFG(SMC-CFG)を導入する。
SMC-CFGは、様々なガイダンス尺度において、セマンティックアライメントとロバストネスにおいて標準CFGを上回っている。
論文 参考訳(メタデータ) (2026-03-03T18:59:48Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Goal inference with Rao-Blackwellized Particle Filters [5.633221187382381]
軌跡のノイズ観測から移動エージェントの最終的な目標を推定することは基本的な推定問題である。
我々は、ラオブラックウェル化粒子フィルタ(RBPF)の変種を用いて、そのような意図推論を行う。
我々は,情報理論漏洩指標を用いて,敵がエージェントの意図をどの程度回復できるかを定量化する。
論文 参考訳(メタデータ) (2025-12-10T02:48:55Z) - DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling [0.7866885337535715]
逆導拡散サンプリングは、しばしばターゲットクラスを達成するが、サンプルの品質は、逆制御された軌道と名目軌道とのずれが蓄積するにつれて低下する。
制御された(制御されていない)拡散過程間の経路空間Kullback-Leibler分散(path-KL)としてこの分解を定式化する。
この経路-KLの最小化は、ワッサーシュタイン距離とフレシェ・インセプション距離(FID)の両方の上限を同時に締め付け、対向制御エネルギーと知覚忠実度との接続を明らかにする。
論文 参考訳(メタデータ) (2025-12-01T00:15:05Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity [35.95129874095729]
テキスト・トゥ・イメージ(T2I)モデルは単一エンタリティ・プロンプトに優れるが、多目的記述に苦慮する。
マルチオブジェクト忠実度に向けてサンプリングダイナミクスを操るための原理的最適化可能な目的を持った最初の理論的枠組みを導入する。
論文 参考訳(メタデータ) (2025-10-02T17:59:58Z) - DriftLite: Lightweight Drift Control for Inference-Time Scaling of Diffusion Models [22.823183347642132]
本研究では,拡散モデルに対する予測時間スケーリングについて検討し,事前学習したモデルを新たなターゲット分布に適応させることを目標とする。
DriftLiteは軽量でトレーニング不要な粒子ベースのアプローチで、飛行中の推論ダイナミクスを最適に安定に制御する。
論文 参考訳(メタデータ) (2025-09-25T22:21:59Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.37264951734603]
JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文 参考訳(メタデータ) (2025-03-09T15:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。