Fugu-MT 論文翻訳(概要): Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions

論文の概要: Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions

arxiv url: http://arxiv.org/abs/2403.17064v1
Date: Mon, 25 Mar 2024 18:00:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 20:05:20.496353
Title: Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
Title（参考訳）: 意味的方向の同定によるT2Iモデルの連続的主観的属性制御
Authors: Stefan Andreas Baumann, Felix Krause, Michael Neumayr, Nick Stracke, Vincent Tao Hu, Björn Ommer,
Abstract要約: 一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。コントラッシブテキストプロンプトから特定の属性に対するこれらの方向を識別する,効率的な最適化自由度とロバストな最適化ベース手法を1つ導入する。
参考スコア（独自算出の注目度）: 21.371773126590874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, advances in text-to-image (T2I) diffusion models have substantially elevated the quality of their generated images. However, achieving fine-grained control over attributes remains a challenge due to the limitations of natural language prompts (such as no continuous set of intermediate descriptions existing between ``person'' and ``old person''). Even though many methods were introduced that augment the model or generation process to enable such control, methods that do not require a fixed reference image are limited to either enabling global fine-grained attribute expression control or coarse attribute expression control localized to specific subjects, not both simultaneously. We show that there exist directions in the commonly used token-level CLIP text embeddings that enable fine-grained subject-specific control of high-level attributes in text-to-image models. Based on this observation, we introduce one efficient optimization-free and one robust optimization-based method to identify these directions for specific attributes from contrastive text prompts. We demonstrate that these directions can be used to augment the prompt text input with fine-grained control over attributes of specific subjects in a compositional manner (control over multiple attributes of a single subject) without having to adapt the diffusion model. Project page: https://compvis.github.io/attribute-control. Code is available at https://github.com/CompVis/attribute-control.
Abstract（参考訳）: 近年,テキスト・ツー・イメージ(T2I)拡散モデルの進歩により,画像の品質が著しく向上している。しかし、自然言語のプロンプトの制限により、属性のきめ細かい制御を達成することは、依然として困難である(例えば、 ``person'' と ``old person''' の間には、中間的な記述の連続的なセットが存在しないなど)。このような制御を可能にするためにモデルや生成プロセスを増強する多くの方法が導入されたが、固定参照画像を必要としない方法は、グローバルな微粒化属性表現制御や粗粒化属性表現制御が可能かのいずれかに限られており、どちらも同時にではない。一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。そこで本研究では,テキストプロンプトから特定の属性の方向を特定するための,効率的な最適化自由度とロバストな最適化ベース手法を提案する。これらの方向は, 拡散モデルを適用することなく, 特定の対象の属性に対して細かな制御を施したテキスト入力を, 構成的手法(単一対象の複数の属性に対する制御)で拡張することができることを示す。プロジェクトページ: https://compvis.github.io/属性コントロール。コードはhttps://github.com/CompVis/attribute-controlで入手できる。

関連論文リスト

Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder [11.392007197036525]
我々は,事前学習した拡散モデルにおける細粒度多属性制御を実現するために設計された,新しいプラグイン・アンド・プレイモジュールであるAttribute (Att) Adapterを紹介する。 Att-Adapterは柔軟性があり、トレーニングのためにペア化された合成データを必要としない。
論文参考訳（メタデータ） (2025-03-15T01:06:34Z)
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文参考訳（メタデータ） (2024-12-28T02:36:51Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文参考訳（メタデータ） (2024-11-25T10:57:48Z)
PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control [24.569528214869113]
StyleGANモデルは、前もってリッチな顔を学習し、潜時操作による微粒化属性編集へのスムーズな制御を可能にする。この作業では、StyleGANsの逆向きの$mathcalW+$スペースを使用して、T2Iモデルを条件付けする。顔のパーソナライゼーションと微粒化属性編集の手法を検証するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-07-24T07:10:25Z)
Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search [19.610244285078483]
本稿では,テキスト属性と画像間の局所的な表現の対応を学習するためのAIMA(Attribute-Aware Implicit Modality Alignment)フレームワークを提案する。提案手法は,現在の最先端手法をはるかに上回ることを示す。
論文参考訳（メタデータ） (2024-06-06T03:34:42Z)
FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文参考訳（メタデータ） (2024-05-08T06:09:11Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
Box It to Bind It: Unified Layout Control and Attribute Binding in T2I Diffusion Models [28.278822620442774]
Box-it-to-Bind-it (B2B) は、テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するためのトレーニング不要なアプローチである。 B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスという、T2Iの3つの重要な課題をターゲットにしている。 B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されている。
論文参考訳（メタデータ） (2024-02-27T21:51:32Z)
Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文参考訳（メタデータ） (2024-02-21T03:01:17Z)
Air-Decoding: Attribute Distribution Reconstruction for Decoding-Time Controllable Text Generation [58.911255139171075]
制御可能なテキスト生成(CTG)は、望ましい属性を持つテキストを生成することを目的としている。本研究では,Air-Decoding という新しい軽量デコーディングフレームワークを提案する。提案手法は,新しい最先端制御性能を実現する。
論文参考訳（メタデータ） (2023-10-23T12:59:11Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)
Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文参考訳（メタデータ） (2023-05-23T10:49:22Z)
DisCup: Discriminator Cooperative Unlikelihood Prompt-tuning for Controllable Text Generation [6.844825905212349]
本稿では,識別器の属性知識を取り入れた新しいCTG手法であるDisCupを提案する。 DisCupは、約10の仮想トークンに頼るだけで、効率的で高品質なテキスト生成を維持しながら、新しい最先端の制御性能を実現することができる。
論文参考訳（メタデータ） (2022-10-18T02:59:06Z)
Attribute-specific Control Units in StyleGAN for Fine-grained Image Manipulation [57.99007520795998]
特徴マップと変調スタイルの複数のチャネルからなる属性固有制御ユニットを探索する。具体的には、制御ユニット内の変調スタイルのチャネルと特徴マップを協調的に操作し、意味的および空間的不整合制御を得る。我々は、特定のスパース方向ベクトルに沿って変調スタイルを移動させ、これらの制御ユニットを操作するために特徴マップを計算するために使用されるフィルタワイズスタイルを置き換える。
論文参考訳（メタデータ） (2021-11-25T10:42:10Z)
Controllable Dialogue Generation with Disentangled Multi-grained Style Specification and Attribute Consistency Reward [47.96949534259019]
マルチ属性制約下で応答生成を行うための制御可能な対話生成モデルを提案する。一般的に使用される制御属性を,応答生成に対する影響の粒度が異なる大域的および局所的な属性に分類する。我々のモデルは、応答品質、コンテンツ多様性、制御性の観点から、競争ベースラインを大幅に上回ることができる。
論文参考訳（メタデータ） (2021-09-14T14:29:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。