論文の概要: Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
- arxiv url: http://arxiv.org/abs/2510.02315v1
- Date: Thu, 02 Oct 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.296168
- Title: Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
- Title(参考訳): フローマッチングを伴う最適制御:多目的忠実性への原則的経路
- Authors: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは単一エンタリティ・プロンプトに優れるが、多目的記述に苦慮する。
マルチオブジェクト忠実度に向けてサンプリングダイナミクスを操るための原理的最適化可能な目的を持った最初の理論的枠組みを導入する。
- 参考スコア(独自算出の注目度): 35.95129874095729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models excel on single-entity prompts but struggle with multi-subject descriptions, often showing attribute leakage, identity entanglement, and subject omissions. We introduce the first theoretical framework with a principled, optimizable objective for steering sampling dynamics toward multi-subject fidelity. Viewing flow matching (FM) through stochastic optimal control (SOC), we formulate subject disentanglement as control over a trained FM sampler. This yields two architecture-agnostic algorithms: (i) a training-free test-time controller that perturbs the base velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight fine-tuning rule that regresses a control network to a backward adjoint signal while preserving base-model capabilities. The same formulation unifies prior attention heuristics, extends to diffusion models via a flow-diffusion correspondence, and provides the first fine-tuning route explicitly designed for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and Stable Diffusion XL, both algorithms consistently improve multi-subject alignment while maintaining base-model style. Test-time control runs efficiently on commodity GPUs, and fine-tuned controllers trained on limited prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal Control for Unentangled Subjects), which achieves state-of-the-art multi-subject fidelity across models.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは単一エンタリティ・プロンプトに優れるが、属性の漏洩、アイデンティティの絡み合い、主題の省略といった多目的記述に苦慮する。
本稿では,多目的忠実度に向けてサンプリングダイナミクスを操る原理的,最適化可能な,最初の理論的枠組みを紹介する。
確率的最適制御(SOC)を通した視野フローマッチング(FM)により,被験者の絡み合いを訓練されたFMサンプリング装置の制御として定式化する。
これはアーキテクチャに依存しない2つのアルゴリズムをもたらす。
(i)単パス更新でベース速度を乱す無トレーニングテストタイムコントローラ
(II)アジョイントマッチング(Adjoint Matching)は、制御ネットワークを後方のアジョイント信号に回帰する軽量な微調整ルールで、ベースモデル機能を保っている。
同じ定式化は、事前の注意ヒューリスティックスを統一し、フロー拡散対応を通じて拡散モデルに拡張し、多目的忠実性のために明示的に設計された最初の微調整経路を提供する。
実証的には、安定拡散3.5、FLUX、安定拡散XLでは、両方のアルゴリズムはベースモデルスタイルを維持しながら、一貫してマルチオブジェクトアライメントを改善している。
テストタイムコントロールはコモディティGPU上で効率的に動作し、限られたプロンプトでトレーニングされた微調整されたコントローラは、目に見えないものに一般化する。
さらに,FOCUS (Flow Optimal Control for Unentangled Subjects) に注目し,モデル間での最先端のマルチオブジェクト忠実度を実現する。
関連論文リスト
- SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening [10.23957420290553]
本稿では,一段階の高品位パンシャーピングを実現するための最適輸送フローマッチングフレームワークを提案する。
OTFMフレームワークは、パンシャーピング制約の厳格な遵守を維持しつつ、シミュレーション不要なトレーニングとシングルステップ推論を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:10:49Z) - Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [19.484676783876306]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Consistency Flow Matching: Defining Straight Flows with Velocity Consistency [97.28511135503176]
本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を紹介する。
予備実験により、一貫性FMは、一貫性モデルよりも4.4倍速く収束することにより、トレーニング効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-02T16:15:37Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Improving and generalizing flow-based generative models with minibatch
optimal transport [90.01613198337833]
連続正規化フロー(CNF)のための一般条件流整合(CFM)技術を導入する。
CFMは、拡散モデルのフローをトレーニングするために使用されるような安定した回帰目標を特徴としているが、決定論的フローモデルの効率的な推論を好んでいる。
我々の目的の変種は最適輸送CFM (OT-CFM) であり、訓練がより安定し、より高速な推論をもたらすより単純なフローを生成する。
論文 参考訳(メタデータ) (2023-02-01T14:47:17Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。