論文の概要: Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
- arxiv url: http://arxiv.org/abs/2403.17064v2
- Date: Fri, 14 Mar 2025 11:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:05.208454
- Title: Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
- Title(参考訳): 意味的方向の同定によるT2Iモデルの連続的主観的属性制御
- Authors: Stefan Andreas Baumann, Felix Krause, Michael Neumayr, Nick Stracke, Melvin Sevi, Vincent Tao Hu, Björn Ommer,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩は、生成画像の品質を大幅に向上させた。
個々の被写体、特にそれらの特徴の効率的な制御を提供することは、依然として重要な課題である。
現在のアプローチでは、両方を同時に提供しないため、正確な連続性および主題固有の属性変調を達成しようとすると、ギャップが生じる。
- 参考スコア(独自算出の注目度): 20.351245266660378
- License:
- Abstract: Recent advances in text-to-image (T2I) diffusion models have significantly improved the quality of generated images. However, providing efficient control over individual subjects, particularly the attributes characterizing them, remains a key challenge. While existing methods have introduced mechanisms to modulate attribute expression, they typically provide either detailed, object-specific localization of such a modification or full-scale fine-grained, nuanced control of attributes. No current approach offers both simultaneously, resulting in a gap when trying to achieve precise continuous and subject-specific attribute modulation in image generation. In this work, we demonstrate that token-level directions exist within commonly used CLIP text embeddings that enable fine-grained, subject-specific control of high-level attributes in T2I models. We introduce two methods to identify these directions: a simple, optimization-free technique and a learning-based approach that utilizes the T2I model to characterize semantic concepts more specifically. Our methods allow the augmentation of the prompt text input, enabling fine-grained control over multiple attributes of individual subjects simultaneously, without requiring any modifications to the diffusion model itself. This approach offers a unified solution that fills the gap between global and localized control, providing competitive flexibility and precision in text-guided image generation. Project page: https://compvis.github.io/attribute-control. Code is available at https://github.com/CompVis/attribute-control.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩は、生成画像の品質を大幅に向上させた。
しかし、個々の被写体、特にそれらの特徴を効果的に制御することは、依然として重要な課題である。
既存の手法では属性表現を修飾する機構が導入されたが、通常はそのような修正の詳細なオブジェクト固有の局所化や、属性の詳細な粒度の細かいニュアンス制御を提供する。
現在のアプローチでは、どちらも同時に提供されないため、画像生成において正確な連続的属性と主観的属性の変調を達成しようとする場合、ギャップが生じる。
本研究は,T2Iモデルにおける高レベル属性の微粒で主観的な制御を可能にするCLIPテキスト埋め込み内にトークンレベルの方向が存在していることを実証する。
本稿では,T2Iモデルを用いて意味論的概念をより具体的に特徴づける,単純で最適化のない手法と学習に基づくアプローチの2つの方法を紹介する。
提案手法では, 拡散モデル自体の変更を必要とせず, 個別の属性の微粒化制御を同時に行うことができる。
このアプローチは、グローバルとローカライズドコントロールのギャップを埋める統一されたソリューションを提供し、テキスト誘導画像生成における競合する柔軟性と精度を提供する。
プロジェクトページ: https://compvis.github.io/属性コントロール。
コードはhttps://github.com/CompVis/attribute-controlで入手できる。
関連論文リスト
- DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control [24.569528214869113]
StyleGANモデルは、前もってリッチな顔を学習し、潜時操作による微粒化属性編集へのスムーズな制御を可能にする。
この作業では、StyleGANsの逆向きの$mathcalW+$スペースを使用して、T2Iモデルを条件付けする。
顔のパーソナライゼーションと微粒化属性編集の手法を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-24T07:10:25Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - DisCup: Discriminator Cooperative Unlikelihood Prompt-tuning for
Controllable Text Generation [6.844825905212349]
本稿では,識別器の属性知識を取り入れた新しいCTG手法であるDisCupを提案する。
DisCupは、約10の仮想トークンに頼るだけで、効率的で高品質なテキスト生成を維持しながら、新しい最先端の制御性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-18T02:59:06Z) - Attribute-specific Control Units in StyleGAN for Fine-grained Image
Manipulation [57.99007520795998]
特徴マップと変調スタイルの複数のチャネルからなる属性固有制御ユニットを探索する。
具体的には、制御ユニット内の変調スタイルのチャネルと特徴マップを協調的に操作し、意味的および空間的不整合制御を得る。
我々は、特定のスパース方向ベクトルに沿って変調スタイルを移動させ、これらの制御ユニットを操作するために特徴マップを計算するために使用されるフィルタワイズスタイルを置き換える。
論文 参考訳(メタデータ) (2021-11-25T10:42:10Z) - Controllable Dialogue Generation with Disentangled Multi-grained Style
Specification and Attribute Consistency Reward [47.96949534259019]
マルチ属性制約下で応答生成を行うための制御可能な対話生成モデルを提案する。
一般的に使用される制御属性を,応答生成に対する影響の粒度が異なる大域的および局所的な属性に分類する。
我々のモデルは、応答品質、コンテンツ多様性、制御性の観点から、競争ベースラインを大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-09-14T14:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。