論文の概要: Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2503.11937v1
- Date: Sat, 15 Mar 2025 01:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:15.054651
- Title: Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder
- Title(参考訳): Att-Adapter:条件付き変分オートエンコーダによるドメイン特化マルチ属性T2I拡散アダプタ
- Authors: Wonwoong Cho, Yan-Ying Chen, Matthew Klenk, David I. Inouye, Yanxia Zhang,
- Abstract要約: 我々は,事前学習した拡散モデルにおける細粒度多属性制御を実現するために設計された,新しいプラグイン・アンド・プレイモジュールであるAttribute (Att) Adapterを紹介する。
Att-Adapterは柔軟性があり、トレーニングのためにペア化された合成データを必要としない。
- 参考スコア(独自算出の注目度): 11.392007197036525
- License:
- Abstract: Text-to-Image (T2I) Diffusion Models have achieved remarkable performance in generating high quality images. However, enabling precise control of continuous attributes, especially multiple attributes simultaneously, in a new domain (e.g., numeric values like eye openness or car width) with text-only guidance remains a significant challenge. To address this, we introduce the Attribute (Att) Adapter, a novel plug-and-play module designed to enable fine-grained, multi-attributes control in pretrained diffusion models. Our approach learns a single control adapter from a set of sample images that can be unpaired and contain multiple visual attributes. The Att-Adapter leverages the decoupled cross attention module to naturally harmonize the multiple domain attributes with text conditioning. We further introduce Conditional Variational Autoencoder (CVAE) to the Att-Adapter to mitigate overfitting, matching the diverse nature of the visual world. Evaluations on two public datasets show that Att-Adapter outperforms all LoRA-based baselines in controlling continuous attributes. Additionally, our method enables a broader control range and also improves disentanglement across multiple attributes, surpassing StyleGAN-based techniques. Notably, Att-Adapter is flexible, requiring no paired synthetic data for training, and is easily scalable to multiple attributes within a single model.
- Abstract(参考訳): テキスト・ツー・イメージ・ディフュージョン・モデル(T2I)は高品質な画像を生成する上で優れた性能を発揮している。
しかし、テキストのみのガイダンスで、新しいドメイン(例えば、目開きや車幅などの数値)において、特に複数の属性を同時に、継続的な属性の正確な制御を可能にすることは、依然として大きな課題である。
そこで本研究では,事前学習した拡散モデルにおいて,微粒で多属性な制御が可能なプラグイン・アンド・プレイモジュールであるAttribute (Att) Adapterを紹介する。
提案手法では,複数の視覚的属性を含む一組のサンプル画像から単一制御アダプタを学習する。
Att-Adapterは分離されたクロスアテンションモジュールを利用して、テキスト条件付きで複数のドメイン属性を自然に調和させる。
さらに,At-Adapterに条件付き変分オートエンコーダ(CVAE)を導入し,過度な適合を緩和し,視覚世界の多様な性質に適合させる。
2つのパブリックデータセットの評価によると、Att-Adapterは、連続的な属性を制御する上で、LoRAベースのベースラインをすべて上回っている。
さらに,本手法はより広い制御範囲を実現するとともに,StyleGANに基づく手法を超越して,複数の属性間の絡み合いを改善する。
特に、Att-Adapterは柔軟性があり、トレーニングのためにペア化された合成データを必要としない。
関連論文リスト
- MV-Adapter: Multi-view Consistent Image Generation Made Easy [60.93957644923608]
既存のマルチビュー画像生成手法は、事前訓練されたテキスト・ツー・イメージモデルに侵入的な修正を加えることが多い。
マルチビュー画像生成のための最初のアダプタと,汎用的なプラグアンドプレイアダプタであるMVAdapterを提案する。
論文 参考訳(メタデータ) (2024-12-04T18:48:20Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions [20.351245266660378]
テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩は、生成画像の品質を大幅に向上させた。
個々の被写体、特にそれらの特徴の効率的な制御を提供することは、依然として重要な課題である。
現在のアプローチでは、両方を同時に提供しないため、正確な連続性および主題固有の属性変調を達成しようとすると、ギャップが生じる。
論文 参考訳(メタデータ) (2024-03-25T18:00:42Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Adapter-TST: A Parameter Efficient Method for Multiple-Attribute Text
Style Transfer [29.67331801326995]
AdapterTSTは、事前訓練されたモデルのオリジナルのパラメータを凍結し、複数属性のテキストスタイルの転送モデルの開発を可能にするフレームワークである。
従来の感情伝達タスクと多属性伝達タスクの両方において提案したモデルを評価する。
論文 参考訳(メタデータ) (2023-05-10T07:33:36Z) - Progressive Open-Domain Response Generation with Multiple Controllable
Attributes [13.599621571488033]
本稿では,この課題に対処するために,漸進的に訓練された階層型バリデコーダを提案する。
PHEDはTransformerにConditional AutoEncoder (CVAE)をデプロイし、属性の1つの側面を1段階に含める。
PHEDは最先端のニューラルジェネレーションモデルを大きく上回り、期待通り多様な応答を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:48:39Z) - MU-GAN: Facial Attribute Editing based on Multi-attention Mechanism [12.762892831902349]
MU-GAN(Multi-attention U-Net-based Generative Adversarial Network)を提案する。
まず,従来の畳み込みエンコーダデコーダを対称なU-Net構造に置き換える。
第二に、長距離およびマルチレベルの依存関係をモデリングするための畳み込み層に自己注意機構が組み込まれている。
論文 参考訳(メタデータ) (2020-09-09T09:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。