論文の概要: Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.12092v2
- Date: Mon, 27 Nov 2023 08:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 10:11:16.060110
- Title: Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
- Title(参考訳): コンセプトスライダ:拡散モデルにおける精密制御のためのLoRAアダプタ
- Authors: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba,
David Bau
- Abstract要約: 拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
スライダは、プロンプトやサンプル画像の小さなセットを使用して作成される。
本手法は、物体の変形の修復や変形した手の固定など、安定XL拡散における持続的品質問題に対処するのに役立つ。
- 参考スコア(独自算出の注目度): 52.894213114914805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to create interpretable concept sliders that enable
precise control over attributes in image generations from diffusion models. Our
approach identifies a low-rank parameter direction corresponding to one concept
while minimizing interference with other attributes. A slider is created using
a small set of prompts or sample images; thus slider directions can be created
for either textual or visual concepts. Concept Sliders are plug-and-play: they
can be composed efficiently and continuously modulated, enabling precise
control over image generation. In quantitative experiments comparing to
previous editing techniques, our sliders exhibit stronger targeted edits with
lower interference. We showcase sliders for weather, age, styles, and
expressions, as well as slider compositions. We show how sliders can transfer
latents from StyleGAN for intuitive editing of visual concepts for which
textual description is difficult. We also find that our method can help address
persistent quality issues in Stable Diffusion XL including repair of object
deformations and fixing distorted hands. Our code, data, and trained sliders
are available at https://sliders.baulab.info/
- Abstract(参考訳): 拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
提案手法では,他の属性との干渉を最小限に抑えながら,ある概念に対応する低ランクパラメータの方向を特定する。
スライダは、プロンプトまたはサンプルイメージの小さなセットを使用して作成されるので、テキストまたはビジュアルのコンセプトでスライダの方向を作成できる。
コンセプトスライダはプラグアンドプレイであり、効率的かつ連続的に構成でき、画像生成を精密に制御することができる。
従来の編集技術と比較した定量的実験では、スライダは低い干渉でより強力な目標編集を示す。
天気,年齢,スタイル,表現のスライダとスライダ構成について紹介する。
テキスト記述が難しい視覚概念を直感的に編集するために,スライダがスタイルガンから潜在表現を転送する方法を示す。
また, 本手法は, 物体変形の修復や変形した手の固定など, 安定拡散xlの持続的な品質問題に対処できることがわかった。
私たちのコード、データ、トレーニングされたスライダーはhttps://sliders.baulab.info/で利用可能です。
関連論文リスト
- Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models [53.385754347812835]
概念スライダは、学習概念(属性/オブジェクト)によるきめ細かい画像制御と編集方法を導入した
このアプローチは、学習概念に使用されるローランドアダプタ(LoRA)のロードとアンロードにより、パラメータを追加し、推論時間を増加させる。
そこで本研究では,テキストエンコーダを共有するモデル間で一般化可能な,テキスト埋め込みによる概念学習のための簡単なテキストインバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T01:02:30Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - GANSlider: How Users Control Generative Models for Images using Multiple
Sliders with and without Feedforward Information [33.28541180149195]
フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。
より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。
可視化だけでは、ユーザが個々のコントロールディメンションを理解するのに十分とは限らない。
論文 参考訳(メタデータ) (2022-02-02T11:25:07Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。