論文の概要: Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.12092v1
- Date: Mon, 20 Nov 2023 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-23 03:26:02.824958
- Title: Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
- Title(参考訳): コンセプトスライダ:拡散モデルにおける精密制御のためのLoRAアダプタ
- Authors: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba,
David Bau
- Abstract要約: 拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
スライダは、プロンプトやサンプル画像の小さなセットを使用して作成される。
本手法は、物体の変形の修復や変形した手の固定など、安定XL拡散における持続的品質問題に対処するのに役立つ。
- 参考スコア(独自算出の注目度): 52.894213114914805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to create interpretable concept sliders that enable
precise control over attributes in image generations from diffusion models. Our
approach identifies a low-rank parameter direction corresponding to one concept
while minimizing interference with other attributes. A slider is created using
a small set of prompts or sample images; thus slider directions can be created
for either textual or visual concepts. Concept Sliders are plug-and-play: they
can be composed efficiently and continuously modulated, enabling precise
control over image generation. In quantitative experiments comparing to
previous editing techniques, our sliders exhibit stronger targeted edits with
lower interference. We showcase sliders for weather, age, styles, and
expressions, as well as slider compositions. We show how sliders can transfer
latents from StyleGAN for intuitive editing of visual concepts for which
textual description is difficult. We also find that our method can help address
persistent quality issues in Stable Diffusion XL including repair of object
deformations and fixing distorted hands. Our code, data, and trained sliders
are available at https://sliders.baulab.info/
- Abstract(参考訳): 拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
提案手法では,他の属性との干渉を最小限に抑えながら,ある概念に対応する低ランクパラメータの方向を特定する。
スライダは、プロンプトまたはサンプルイメージの小さなセットを使用して作成されるので、テキストまたはビジュアルのコンセプトでスライダの方向を作成できる。
コンセプトスライダはプラグアンドプレイであり、効率的かつ連続的に構成でき、画像生成を精密に制御することができる。
従来の編集技術と比較した定量的実験では、スライダは低い干渉でより強力な目標編集を示す。
天気,年齢,スタイル,表現のスライダとスライダ構成について紹介する。
テキスト記述が難しい視覚概念を直感的に編集するために,スライダがスタイルガンから潜在表現を転送する方法を示す。
また, 本手法は, 物体変形の修復や変形した手の固定など, 安定拡散xlの持続的な品質問題に対処できることがわかった。
私たちのコード、データ、トレーニングされたスライダーはhttps://sliders.baulab.info/で利用可能です。
関連論文リスト
- SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control [50.76070785417023]
スライダ編集(SliderEdit)は、細粒度で解釈可能な命令制御による連続的な画像編集のためのフレームワークである。
複数部分の編集命令が与えられたSliderEditは、個々の命令をアンタングルして、グローバルにトレーニングされたスライダとして公開する。
本結果は,連続的,構成的制御による対話的,命令駆動型画像操作の道を開くものである。
論文 参考訳(メタデータ) (2025-11-12T20:21:37Z) - FreeSliders: Training-Free, Modality-Agnostic Concept Sliders for Fine-Grained Diffusion Control in Images, Audio, and Video [19.20143810117644]
概念スライダは、テキストコントラストを通して意味的な方向を発見することによって、有望な方向を提供する。
FreeSlidersは、推論中にCSの公式を部分的に見積もることで、完全にトレーニング不要でモダリティに依存しない。
提案手法は,モダリティ間のプラグアンドプレイ,トレーニング不要の概念制御,既存のベースラインの改善,原則生成のための新しいツールの確立を可能にする。
論文 参考訳(メタデータ) (2025-10-30T17:59:58Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters [13.392855357208811]
Text Sliderは、視覚概念を継続的に制御するための軽量で効率的でプラグアンドプレイのフレームワークである。
事前訓練されたテキストエンコーダ内の低ランク方向を識別し、視覚概念の連続的な制御を可能にする。
マルチコンセプト合成と連続制御をサポートし、画像合成とビデオ合成の両方において微細で柔軟な操作を可能にする。
論文 参考訳(メタデータ) (2025-09-23T09:17:18Z) - All-in-One Slider for Attribute Manipulation in Diffusion Models [13.362768653792097]
テキスト埋め込み空間をスパースで意味のある属性方向に分解する軽量モジュールであるAll-in-One Sliderを紹介する。
学習した方向を再結合することで、All-in-One Sliderは目に見えない属性のゼロショット操作をサポートする。
提案手法は,実画像の属性操作を行うために,インバージョンフレームワークと統合するために拡張することができる。
論文 参考訳(メタデータ) (2025-08-26T16:56:30Z) - Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing [28.792459459465515]
本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
論文 参考訳(メタデータ) (2025-05-16T18:12:26Z) - SliderSpace: Decomposing the Visual Capabilities of Diffusion Models [50.82362500995365]
SliderSpaceは拡散モデルの視覚的能力を自動分解するフレームワークである。
単一のテキストプロンプトから複数の解釈可能かつ多様な方向を同時に検出する。
本手法は,ベースラインに比べて多様性があり,有用である。
論文 参考訳(メタデータ) (2025-02-03T18:59:55Z) - Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models [53.385754347812835]
概念スライダは、学習概念(属性/オブジェクト)によるきめ細かい画像制御と編集方法を導入した
このアプローチは、学習概念に使用されるローランドアダプタ(LoRA)のロードとアンロードにより、パラメータを追加し、推論時間を増加させる。
そこで本研究では,テキストエンコーダを共有するモデル間で一般化可能な,テキスト埋め込みによる概念学習のための簡単なテキストインバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T01:02:30Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - GANSlider: How Users Control Generative Models for Images using Multiple
Sliders with and without Feedforward Information [33.28541180149195]
フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。
より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。
可視化だけでは、ユーザが個々のコントロールディメンションを理解するのに十分とは限らない。
論文 参考訳(メタデータ) (2022-02-02T11:25:07Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。