論文の概要: Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
- arxiv url: http://arxiv.org/abs/2403.17064v1
- Date: Mon, 25 Mar 2024 18:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:05:20.496353
- Title: Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
- Title(参考訳): 意味的方向の同定によるT2Iモデルの連続的主観的属性制御
- Authors: Stefan Andreas Baumann, Felix Krause, Michael Neumayr, Nick Stracke, Vincent Tao Hu, Björn Ommer,
- Abstract要約: 一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。
コントラッシブテキストプロンプトから特定の属性に対するこれらの方向を識別する,効率的な最適化自由度とロバストな最適化ベース手法を1つ導入する。
- 参考スコア(独自算出の注目度): 21.371773126590874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, advances in text-to-image (T2I) diffusion models have substantially elevated the quality of their generated images. However, achieving fine-grained control over attributes remains a challenge due to the limitations of natural language prompts (such as no continuous set of intermediate descriptions existing between ``person'' and ``old person''). Even though many methods were introduced that augment the model or generation process to enable such control, methods that do not require a fixed reference image are limited to either enabling global fine-grained attribute expression control or coarse attribute expression control localized to specific subjects, not both simultaneously. We show that there exist directions in the commonly used token-level CLIP text embeddings that enable fine-grained subject-specific control of high-level attributes in text-to-image models. Based on this observation, we introduce one efficient optimization-free and one robust optimization-based method to identify these directions for specific attributes from contrastive text prompts. We demonstrate that these directions can be used to augment the prompt text input with fine-grained control over attributes of specific subjects in a compositional manner (control over multiple attributes of a single subject) without having to adapt the diffusion model. Project page: https://compvis.github.io/attribute-control. Code is available at https://github.com/CompVis/attribute-control.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)拡散モデルの進歩により,画像の品質が著しく向上している。
しかし、自然言語のプロンプトの制限により、属性のきめ細かい制御を達成することは、依然として困難である(例えば、 ``person'' と ``old person''' の間には、中間的な記述の連続的なセットが存在しないなど)。
このような制御を可能にするためにモデルや生成プロセスを増強する多くの方法が導入されたが、固定参照画像を必要としない方法は、グローバルな微粒化属性表現制御や粗粒化属性表現制御が可能かのいずれかに限られており、どちらも同時にではない。
一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。
そこで本研究では,テキストプロンプトから特定の属性の方向を特定するための,効率的な最適化自由度とロバストな最適化ベース手法を提案する。
これらの方向は, 拡散モデルを適用することなく, 特定の対象の属性に対して細かな制御を施したテキスト入力を, 構成的手法(単一対象の複数の属性に対する制御)で拡張することができることを示す。
プロジェクトページ: https://compvis.github.io/属性コントロール。
コードはhttps://github.com/CompVis/attribute-controlで入手できる。
関連論文リスト
- Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - Air-Decoding: Attribute Distribution Reconstruction for Decoding-Time
Controllable Text Generation [58.911255139171075]
制御可能なテキスト生成(CTG)は、望ましい属性を持つテキストを生成することを目的としている。
本研究では,Air-Decoding という新しい軽量デコーディングフレームワークを提案する。
提案手法は,新しい最先端制御性能を実現する。
論文 参考訳(メタデータ) (2023-10-23T12:59:11Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - DisCup: Discriminator Cooperative Unlikelihood Prompt-tuning for
Controllable Text Generation [6.844825905212349]
本稿では,識別器の属性知識を取り入れた新しいCTG手法であるDisCupを提案する。
DisCupは、約10の仮想トークンに頼るだけで、効率的で高品質なテキスト生成を維持しながら、新しい最先端の制御性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-18T02:59:06Z) - Attribute-specific Control Units in StyleGAN for Fine-grained Image
Manipulation [57.99007520795998]
特徴マップと変調スタイルの複数のチャネルからなる属性固有制御ユニットを探索する。
具体的には、制御ユニット内の変調スタイルのチャネルと特徴マップを協調的に操作し、意味的および空間的不整合制御を得る。
我々は、特定のスパース方向ベクトルに沿って変調スタイルを移動させ、これらの制御ユニットを操作するために特徴マップを計算するために使用されるフィルタワイズスタイルを置き換える。
論文 参考訳(メタデータ) (2021-11-25T10:42:10Z) - Controllable Dialogue Generation with Disentangled Multi-grained Style
Specification and Attribute Consistency Reward [47.96949534259019]
マルチ属性制約下で応答生成を行うための制御可能な対話生成モデルを提案する。
一般的に使用される制御属性を,応答生成に対する影響の粒度が異なる大域的および局所的な属性に分類する。
我々のモデルは、応答品質、コンテンツ多様性、制御性の観点から、競争ベースラインを大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-09-14T14:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。