論文の概要: FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition
- arxiv url: http://arxiv.org/abs/2312.07536v1
- Date: Tue, 12 Dec 2023 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:40:25.855504
- Title: FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition
- Title(参考訳): FreeControl:任意の条件による任意のテキスト・画像拡散モデルの学習自由空間制御
- Authors: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin
Li, Bolei Zhou
- Abstract要約: FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
- 参考スコア(独自算出の注目度): 41.92032568474062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.
- Abstract(参考訳): controlnetのような最近のアプローチは、テキスト・ツー・イメージ(t2i)拡散モデルに対するきめ細かい空間制御を提供する。
しかし、補助モジュールは、各タイプの空間的条件、モデルアーキテクチャ、チェックポイントのために訓練されなければならず、コンテンツ作成プロセス中に人間のデザイナーがaiモデルに伝えたい様々な意図や好みと相反する。
本稿では,複数の条件,アーキテクチャ,チェックポイントを同時にサポートする,制御可能なt2i生成のためのトレーニングフリーなアプローチであるfreecontrolを提案する。
フリーコントロールは、誘導画像と構造アライメントを容易にする構造ガイダンスと、同一種を用いて生成された画像間の外観共有を可能にする外観ガイダンスとをデザインする。
大規模定性的および定量的実験は、様々な事前訓練されたT2IモデルにまたがるFreeControlの優れた性能を示す。
特にfreecontrolは、多くの異なるアーキテクチャやチェックポイントに対するトレーニングフリーな制御を容易にし、既存のトレーニングフリーメソッドのほとんどが失敗する難しい入力条件を可能にし、トレーニングベースのアプローチで競争力のある合成品質を達成する。
関連論文リスト
- FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。