論文の概要: CompSlider: Compositional Slider for Disentangled Multiple-Attribute Image Generation
- arxiv url: http://arxiv.org/abs/2509.01028v2
- Date: Wed, 03 Sep 2025 15:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.507354
- Title: CompSlider: Compositional Slider for Disentangled Multiple-Attribute Image Generation
- Title(参考訳): CompSlider:分散多重属性画像生成のための合成スライダ
- Authors: Zixin Zhu, Kevin Duarte, Mamshad Nayeem Rizve, Chengyuan Xu, Ratheesh Kalarot, Junsong Yuan,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成では、年齢や笑顔などの属性のきめ細かい制御を達成することは依然として困難である。
我々は,T2Iファンデーションモデルに対して,複数の属性を同時に制御するための条件前処理を生成するCompSliderを導入する。
我々は,様々な画像属性に対するアプローチを評価し,映像生成に拡張することでその一般性を強調した。
- 参考スコア(独自算出の注目度): 29.82973120718493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text-to-image (T2I) generation, achieving fine-grained control over attributes - such as age or smile - remains challenging, even with detailed text prompts. Slider-based methods offer a solution for precise control of image attributes. Existing approaches typically train individual adapter for each attribute separately, overlooking the entanglement among multiple attributes. As a result, interference occurs among different attributes, preventing precise control of multiple attributes together. To address this challenge, we aim to disentangle multiple attributes in slider-based generation to enbale more reliable and independent attribute manipulation. Our approach, CompSlider, can generate a conditional prior for the T2I foundation model to control multiple attributes simultaneously. Furthermore, we introduce novel disentanglement and structure losses to compose multiple attribute changes while maintaining structural consistency within the image. Since CompSlider operates in the latent space of the conditional prior and does not require retraining the foundation model, it reduces the computational burden for both training and inference. We evaluate our approach on a variety of image attributes and highlight its generality by extending to video generation.
- Abstract(参考訳): T2I(text-to-image)生成では、詳細なテキストプロンプトであっても、年齢や笑顔などの属性のきめ細かい制御を達成することは難しい。
スライダベースの手法は、画像属性を正確に制御するためのソリューションを提供する。
既存のアプローチでは、個々の属性に対して個別のアダプタを個別にトレーニングし、複数の属性間の絡み合いを見渡すのが一般的である。
その結果、干渉は異なる属性間で発生し、複数の属性を同時に正確に制御するのを防ぐ。
この課題に対処するために、スライダベースの生成において複数の属性をアンタングルにし、より信頼性が高く独立した属性操作を実現することを目的とする。
我々のアプローチであるCompSliderは、T2Iファンデーションモデルで複数の属性を同時に制御するための条件前処理を生成することができる。
さらに,画像内の構造的整合性を維持しつつ,複数の属性変化を構成するために,新たな歪みと構造的損失を導入する。
CompSliderは、条件付き前の潜在空間で動作し、基礎モデルの再訓練を必要としないため、トレーニングと推論の両方の計算負担を軽減する。
我々は,様々な画像属性に対するアプローチを評価し,映像生成に拡張することでその一般性を強調した。
関連論文リスト
- All-in-One Slider for Attribute Manipulation in Diffusion Models [13.362768653792097]
テキスト埋め込み空間をスパースで意味のある属性方向に分解する軽量モジュールであるAll-in-One Sliderを紹介する。
学習した方向を再結合することで、All-in-One Sliderは目に見えない属性のゼロショット操作をサポートする。
提案手法は,実画像の属性操作を行うために,インバージョンフレームワークと統合するために拡張することができる。
論文 参考訳(メタデータ) (2025-08-26T16:56:30Z) - Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder [11.392007197036525]
我々は,事前学習した拡散モデルにおける細粒度多属性制御を実現するために設計された,新しいプラグイン・アンド・プレイモジュールであるAttribute (Att) Adapterを紹介する。
Att-Adapterは柔軟性があり、トレーニングのためにペア化された合成データを必要としない。
論文 参考訳(メタデータ) (2025-03-15T01:06:34Z) - Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions [20.351245266660378]
テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩は、生成画像の品質を大幅に向上させた。
個々の被写体、特にそれらの特徴の効率的な制御を提供することは、依然として重要な課題である。
現在のアプローチでは、両方を同時に提供しないため、正確な連続性および主題固有の属性変調を達成しようとすると、ギャップが生じる。
論文 参考訳(メタデータ) (2024-03-25T18:00:42Z) - Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models [52.894213114914805]
拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
スライダは、プロンプトやサンプル画像の小さなセットを使用して作成される。
本手法は、物体の変形の修復や変形した手の固定など、安定XL拡散における持続的品質問題に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-11-20T18:59:01Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。