論文の概要: All-in-One Slider for Attribute Manipulation in Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.19195v1
- Date: Tue, 26 Aug 2025 16:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.923821
- Title: All-in-One Slider for Attribute Manipulation in Diffusion Models
- Title(参考訳): 拡散モデルにおける属性操作のためのオールインワンスライダ
- Authors: Weixin Ye, Hongguang Zhu, Wei Wang, Yahui Liu, Mengyu Wang,
- Abstract要約: テキスト埋め込み空間をスパースで意味のある属性方向に分解する軽量モジュールであるAll-in-One Sliderを紹介する。
学習した方向を再結合することで、All-in-One Sliderは目に見えない属性のゼロショット操作をサポートする。
提案手法は,実画像の属性操作を行うために,インバージョンフレームワークと統合するために拡張することができる。
- 参考スコア(独自算出の注目度): 13.362768653792097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models have made significant strides in generating high-quality images. However, progressively manipulating certain attributes of generated images to meet the desired user expectations remains challenging, particularly for content with rich details, such as human faces. Some studies have attempted to address this by training slider modules. However, they follow a One-for-One manner, where an independent slider is trained for each attribute, requiring additional training whenever a new attribute is introduced. This not only results in parameter redundancy accumulated by sliders but also restricts the flexibility of practical applications and the scalability of attribute manipulation. To address this issue, we introduce the All-in-One Slider, a lightweight module that decomposes the text embedding space into sparse, semantically meaningful attribute directions. Once trained, it functions as a general-purpose slider, enabling interpretable and fine-grained continuous control over various attributes. Moreover, by recombining the learned directions, the All-in-One Slider supports zero-shot manipulation of unseen attributes (e.g., races and celebrities) and the composition of multiple attributes. Extensive experiments demonstrate that our method enables accurate and scalable attribute manipulation, achieving notable improvements compared to previous methods. Furthermore, our method can be extended to integrate with the inversion framework to perform attribute manipulation on real images, broadening its applicability to various real-world scenarios. The code and trained model will be released at: https://github.com/ywxsuperstar/KSAE-FaceSteer.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像の生成に大きく貢献している。
しかし、特に人間の顔のようなリッチな細部を持つコンテンツでは、ユーザの期待に応えるために生成画像の特定の属性を段階的に操作することは困難である。
いくつかの研究は、スライダモジュールのトレーニングによってこの問題に対処しようと試みている。
しかし、それぞれの属性に対して独立したスライダがトレーニングされ、新しい属性が導入されるたびに追加のトレーニングが必要になる。
これはスライダによって蓄積されるパラメータの冗長性だけでなく、実用アプリケーションの柔軟性や属性操作のスケーラビリティも制限する。
この問題に対処するために,テキスト埋め込み空間をスパースで意味のある属性方向に分解する軽量モジュールであるAll-in-One Sliderを紹介した。
トレーニングが完了すると、汎用スライダとして機能し、様々な属性を解釈可能できめ細かい連続的な制御を可能にする。
さらに、学習した方向を再結合することにより、All-in-One Sliderは、目に見えない属性(例えば、レースやセレブ)のゼロショット操作と、複数の属性の合成をサポートする。
大規模な実験により,提案手法は高精度でスケーラブルな属性操作が可能であり,従来の手法と比較して顕著な改善が得られた。
さらに,本手法は,インバージョンフレームワークと統合して実画像の属性操作を行なえるように拡張することができ,様々な実世界のシナリオへの適用性を高めることができる。
コードとトレーニングされたモデルは、https://github.com/ywxsuperstar/KSAE-FaceSteerでリリースされる。
関連論文リスト
- Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models [52.894213114914805]
拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
スライダは、プロンプトやサンプル画像の小さなセットを使用して作成される。
本手法は、物体の変形の修復や変形した手の固定など、安定XL拡散における持続的品質問題に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-11-20T18:59:01Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z) - Everything is There in Latent Space: Attribute Editing and Attribute
Style Manipulation by StyleGAN Latent Space Exploration [39.18239951479647]
RAAME (Few-shot Latent-based Attribute Manipulation and Editing) について紹介する。
FLAMEは、遅延空間操作によって高度に制御された画像編集を行うためのフレームワークである。
様々な属性スタイルをアンタングル的に生成する。
論文 参考訳(メタデータ) (2022-07-20T12:40:32Z) - Boosting Zero-shot Learning via Contrastive Optimization of Attribute
Representations [28.46906100680767]
画像以外の属性のプロトタイプを明示的に学習することでZSL(Zero-shot Learning)を強化する新しいフレームワークを提案する。
プロトタイプ生成モジュールは属性セマンティクスから属性プロトタイプを生成するように設計されている。
ハードな例に基づくコントラスト最適化スキームを導入し、埋め込み空間における属性レベルの特徴を補強する。
論文 参考訳(メタデータ) (2022-07-08T11:05:35Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。