論文の概要: Local Conditional Controlling for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.08768v2
- Date: Tue, 6 Feb 2024 14:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:25:35.412059
- Title: Local Conditional Controlling for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける局所条件制御
- Authors: Yibo Zhao, Liang Peng, Yang Yang, Zekai Luo, Hengjia Li, Yao Chen, Wei
Zhao, qinglin lu, Boxi Wu, Wei Liu
- Abstract要約: 拡散モデルは、テキスト・ツー・イメージのタスクにおいて素晴らしい成果を上げている。
近年の手法では、エッジや深度マップなどの画像レベルの制御を加えて、テキストプロンプトとともに生成プロセスを操作し、所望の画像を取得する。
ローカル制御という,シンプルで実用的なタスク設定を導入する。
- 参考スコア(独自算出の注目度): 22.732346931679555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have exhibited impressive prowess in the text-to-image task.
Recent methods add image-level controls, e.g., edge and depth maps, to
manipulate the generation process together with text prompts to obtain desired
images. This controlling process is globally operated on the entire image,
which limits the flexibility of control regions. In this paper, we introduce a
new simple yet practical task setting: local control. It focuses on controlling
specific local areas according to user-defined image conditions, where the rest
areas are only conditioned by the original text prompt. This manner allows the
users to flexibly control the image generation in a fine-grained way. However,
it is non-trivial to achieve this goal. The naive manner of directly adding
local conditions may lead to the local control dominance problem. To mitigate
this problem, we propose a training-free method that leverages the updates of
noised latents and parameters in the cross-attention map during the denosing
process to promote concept generation in non-control areas. Moreover, we use
feature mask constraints to mitigate the degradation of synthesized image
quality caused by information differences inside and outside the local control
area. Extensive experiments demonstrate that our method can synthesize
high-quality images to the prompt under local control conditions. Code is
available at https://github.com/YibooZhao/Local-Control.
- Abstract(参考訳): 拡散モデルは、テキストから画像へのタスクにおいて印象的な傾向を示してきた。
近年の手法では、エッジや深度マップなどの画像レベルの制御を加えて、テキストプロンプトとともに生成プロセスを操作し、所望の画像を取得する。
この制御プロセスは、制御領域の柔軟性を制限する全画像上でグローバルに操作される。
本稿では,ローカル制御という,シンプルで実用的なタスク設定を提案する。
ユーザが定義した画像条件に従って特定の局所領域を制御することに焦点を当て、残りの領域は元のテキストプロンプトによってのみ条件付けされる。
この方法では、ユーザがきめ細かい方法で画像生成を柔軟に制御できる。
しかし、この目標を達成することは自明ではない。
局所的な条件を直接付加するナイーブな方法が、局所的な支配的な問題に繋がる可能性がある。
そこで本研究では,非制御領域における概念生成を促進するため,非制御領域におけるデノセーション過程におけるクロス・アテンション・マップのノイズの更新とパラメータを活用するトレーニングフリーな手法を提案する。
また,局所制御領域内外における情報差に起因する合成画像品質の劣化を軽減するために,特徴マスク制約を用いる。
広域実験により,高品質画像を局所制御条件下でプロンプトに合成できることが実証された。
コードはhttps://github.com/YibooZhao/Local-Control.comで入手できる。
関連論文リスト
- DreamWalk: Style Space Exploration using Diffusion Guidance [19.065568106372222]
Photoshopのような直接編集ツールとは異なり、テキスト・コンディショニングのモデルではアーティストが「プロンプト・エンジニアリング」を行う必要がある。
私たちのゴールは、プロンプトによって指定されたスタイルと物質をきめ細かな制御を提供することです。
メソッドはLoRA-またはDreamBoothで訓練されたモデルと併用することができる。
論文 参考訳(メタデータ) (2024-04-04T01:39:01Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Attribute-specific Control Units in StyleGAN for Fine-grained Image
Manipulation [57.99007520795998]
特徴マップと変調スタイルの複数のチャネルからなる属性固有制御ユニットを探索する。
具体的には、制御ユニット内の変調スタイルのチャネルと特徴マップを協調的に操作し、意味的および空間的不整合制御を得る。
我々は、特定のスパース方向ベクトルに沿って変調スタイルを移動させ、これらの制御ユニットを操作するために特徴マップを計算するために使用されるフィルタワイズスタイルを置き換える。
論文 参考訳(メタデータ) (2021-11-25T10:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。