論文の概要: Improving Controllable Generation: Faster Training and Better Performance via $x_0$-Supervision
- arxiv url: http://arxiv.org/abs/2604.05761v1
- Date: Tue, 07 Apr 2026 12:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.801898
- Title: Improving Controllable Generation: Faster Training and Better Performance via $x_0$-Supervision
- Title(参考訳): 制御可能な生成を改善する - $x_0$-Supervisionによる高速トレーニングとパフォーマンス向上
- Authors: Amadou S. Sangare, Adrien Maglo, Mohamed Chaouch, Bertrand Luvison,
- Abstract要約: 制御可能な生成方法は、シーンをより簡単に記述できる追加条件で初期T2Iモデルを増強する。
拡散損失を再重み付けした$x_0$-supervisionと呼ばれるクリーンターゲット画像の直接監督は、より高速な収束をもたらすことを示す。
- 参考スコア(独自算出の注目度): 27.540734730362725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) diffusion/flow models have recently achieved remarkable progress in visual fidelity and text alignment. However, they remain limited when users need to precisely control image layouts, something that natural language alone cannot reliably express. Controllable generation methods augment the initial T2I model with additional conditions that more easily describe the scene. Prior works straightforwardly train the augmented network with the same loss as the initial network. Although natural at first glance, this can lead to very long training times in some cases before convergence. In this work, we revisit the training objective of controllable diffusion models through a detailed analysis of their denoising dynamics. We show that direct supervision on the clean target image, dubbed $x_0$-supervision, or an equivalent re-weighting of the diffusion loss, yields faster convergence. Experiments on multiple control settings demonstrate that our formulation accelerates convergence by up to 2$\times$ according to our novel metric (mean Area Under the Convergence Curve - mAUCC), while also improving both visual quality and conditioning accuracy. Our code is available at https://github.com/CEA-LIST/x0-supervision
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散/フローモデルは近年,視覚的忠実度とテキストアライメントにおいて顕著な進歩を遂げている。
しかし、画像レイアウトを正確に制御する必要がある場合、それらは制限され続け、自然言語だけでは確実に表現できない。
制御可能な生成方法は、シーンをより簡単に記述できる追加条件で初期T2Iモデルを増強する。
以前の作業では、初期ネットワークと同じ損失で、拡張ネットワークを直接トレーニングする。
一見自然だが、このことは収束する前の長いトレーニング時間につながることもある。
本研究では,制御可能な拡散モデルの学習目標について,その認知力学の詳細な解析を通じて再検討する。
拡散損失を再重み付けした$x_0$-supervisionと呼ばれるクリーンターゲット画像の直接監督は、より高速な収束をもたらすことを示す。
複数制御条件の実験では, コンバージェンス曲線下の平均値 (mAUCC) により, 最大2$\times$の収束が促進され, 視覚的品質と条件付けの精度が向上することが示された。
私たちのコードはhttps://github.com/CEA-LIST/x0-supervisionで利用可能です。
関連論文リスト
- Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity [35.95129874095729]
テキスト・トゥ・イメージ(T2I)モデルは単一エンタリティ・プロンプトに優れるが、多目的記述に苦慮する。
マルチオブジェクト忠実度に向けてサンプリングダイナミクスを操るための原理的最適化可能な目的を持った最初の理論的枠組みを導入する。
論文 参考訳(メタデータ) (2025-10-02T17:59:58Z) - DivControl: Knowledge Diversion for Controllable Image Generation [38.166949036830886]
DivControlは、統合制御可能な生成のための分解可能な事前トレーニングフレームワークである。
最先端の制御性を36.4$timesのトレーニングコストで実現している。
また、目に見えない条件で強力なゼロショットと少数ショットのパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-07-31T15:00:15Z) - Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。