論文の概要: CMAD: Cooperative Multi-Agent Diffusion via Stochastic Optimal Control
- arxiv url: http://arxiv.org/abs/2602.10933v1
- Date: Wed, 11 Feb 2026 15:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.035375
- Title: CMAD: Cooperative Multi-Agent Diffusion via Stochastic Optimal Control
- Title(参考訳): CMAD:確率的最適制御による協調的多エージェント拡散
- Authors: Riccardo Barbano, Alexander Denker, Zeljko Kereta, Runchang Li, Francisco Vargas,
- Abstract要約: 連続時間生成モデルは、画像の復元と合成において顕著な成功を収めた。
複数の事前訓練されたモデルの構成を制御することは、依然としてオープンな課題である。
- 参考スコア(独自算出の注目度): 40.52516377402657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time generative models have achieved remarkable success in image restoration and synthesis. However, controlling the composition of multiple pre-trained models remains an open challenge. Current approaches largely treat composition as an algebraic composition of probability densities, such as via products or mixtures of experts. This perspective assumes the target distribution is known explicitly, which is almost never the case. In this work, we propose a different paradigm that formulates compositional generation as a cooperative Stochastic Optimal Control problem. Rather than combining probability densities, we treat pre-trained diffusion models as interacting agents whose diffusion trajectories are jointly steered, via optimal control, toward a shared objective defined on their aggregated output. We validate our framework on conditional MNIST generation and compare it against a naive inference-time DPS-style baseline replacing learned cooperative control with per-step gradient guidance.
- Abstract(参考訳): 連続時間生成モデルは、画像の復元と合成において顕著な成功を収めた。
しかし、複数の事前訓練されたモデルの構成を制御することは、依然としてオープンな課題である。
現在のアプローチは、主に確率密度の代数的合成として、例えば積や専門家の混合などを扱う。
この観点では、対象の分布が明示的に知られていると仮定するが、ほとんどそうではない。
本研究では、協調確率最適制御問題として構成生成を定式化する異なるパラダイムを提案する。
確率密度を合成するのではなく, 拡散軌道が最適制御により協調的に制御される相互作用エージェントとして, 集約出力上で定義された共有目的に向けて, 事前学習した拡散モデルを扱う。
我々は,条件付きMNIST生成の枠組みを検証し,学習した協調制御をステップごとの勾配誘導に置き換える,単純な推論時間DPSスタイルのベースラインと比較した。
関連論文リスト
- Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - CREPE: Controlling Diffusion with Replica Exchange [32.38925001748167]
拡散モデルの推論時間制御は、モデル出力を操り、再学習せずに新しい制約を満たすことを目的としている。
レプリカ交換に基づくフレキシブルな代替案を提案する。
CREPE:(1) 粒子を逐次生成し,(2) 燃焼後の試料の多様性を高く維持し,(3) オンライン精製や早期終了を可能にする。
論文 参考訳(メタデータ) (2025-09-27T11:45:37Z) - Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.37264951734603]
JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文 参考訳(メタデータ) (2025-03-09T15:06:50Z) - Parallelly Tempered Generative Adversarial Nets: Toward Stabilized Gradients [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Diffusion Model-Augmented Behavioral Cloning [4.363232795241617]
本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。
提案した拡散モデル拡張行動クローン(DBC)は,専門家の行動のモデル化に訓練された拡散モデルを用いて,BC損失(条件)と拡散モデル損失(ジョイント)の両方を最適化する政策を学習する。
論文 参考訳(メタデータ) (2023-02-26T15:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。