Fugu-MT 論文翻訳(概要): FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition

論文の概要: FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition

arxiv url: http://arxiv.org/abs/2312.07536v1
Date: Tue, 12 Dec 2023 18:59:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 14:40:25.855504
Title: FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
Title（参考訳）: FreeControl:任意の条件による任意のテキスト・画像拡散モデルの学習自由空間制御
Authors: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
Abstract要約: FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。トレーニングベースのアプローチで、競争力のある合成品質を実現する。
参考スコア（独自算出の注目度）: 41.92032568474062
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent approaches such as ControlNet offer users fine-grained spatial control over text-to-image (T2I) diffusion models. However, auxiliary modules have to be trained for each type of spatial condition, model architecture, and checkpoint, putting them at odds with the diverse intents and preferences a human designer would like to convey to the AI models during the content creation process. In this work, we present FreeControl, a training-free approach for controllable T2I generation that supports multiple conditions, architectures, and checkpoints simultaneously. FreeControl designs structure guidance to facilitate the structure alignment with a guidance image, and appearance guidance to enable the appearance sharing between images generated using the same seed. Extensive qualitative and quantitative experiments demonstrate the superior performance of FreeControl across a variety of pre-trained T2I models. In particular, FreeControl facilitates convenient training-free control over many different architectures and checkpoints, allows the challenging input conditions on which most of the existing training-free methods fail, and achieves competitive synthesis quality with training-based approaches.
Abstract（参考訳）: controlnetのような最近のアプローチは、テキスト・ツー・イメージ(t2i)拡散モデルに対するきめ細かい空間制御を提供する。しかし、補助モジュールは、各タイプの空間的条件、モデルアーキテクチャ、チェックポイントのために訓練されなければならず、コンテンツ作成プロセス中に人間のデザイナーがaiモデルに伝えたい様々な意図や好みと相反する。本稿では,複数の条件,アーキテクチャ,チェックポイントを同時にサポートする,制御可能なt2i生成のためのトレーニングフリーなアプローチであるfreecontrolを提案する。フリーコントロールは、誘導画像と構造アライメントを容易にする構造ガイダンスと、同一種を用いて生成された画像間の外観共有を可能にする外観ガイダンスとをデザインする。大規模定性的および定量的実験は、様々な事前訓練されたT2IモデルにまたがるFreeControlの優れた性能を示す。特にfreecontrolは、多くの異なるアーキテクチャやチェックポイントに対するトレーニングフリーな制御を容易にし、既存のトレーニングフリーメソッドのほとんどが失敗する難しい入力条件を可能にし、トレーニングベースのアプローチで競争力のある合成品質を達成する。

関連論文リスト

LLMControl: Grounded Control of Text-to-Image Diffusion-based Synthesis with Multimodal LLMs [3.6016438645365834]
制御可能なT2I生成タスクの課題に対処するため, LLM_Control というフレームワークを提案する。 LLM_Controlは、接地性能を向上させることにより、事前学習した拡散モデルを正確に変調する。我々はマルチモーダル LLM をグローバルコントローラとして利用し,空間レイアウトの配置,意味記述の強化,オブジェクト属性のバインドを行う。
論文参考訳（メタデータ） (2025-07-26T12:57:02Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文参考訳（メタデータ） (2024-08-12T11:41:18Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance [36.50036055679903]
最近の制御可能な生成手法は、補助モジュールを訓練することなく、テキスト・ツー・イメージ(T2I)拡散モデルにきめ細かい空間的および外観的制御をもたらす。この研究は、追加のトレーニングやガイダンスなしでT2I拡散制御構造と外観の単純なフレームワークであるCtrl-Xを提示する。
論文参考訳（メタデータ） (2024-06-11T17:59:01Z)
OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文参考訳（メタデータ） (2024-06-09T18:03:47Z)
FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文参考訳（メタデータ） (2024-05-08T06:09:11Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。 UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。 9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文参考訳（メタデータ） (2023-05-18T17:41:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。