論文の概要: Stylistic Attribute Control in Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.02583v1
- Date: Mon, 04 May 2026 13:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.304415
- Title: Stylistic Attribute Control in Latent Diffusion Models
- Title(参考訳): 潜在拡散モデルにおけるスティリスティック属性制御
- Authors: Max Reimann, Benito Buchheim, Jürgen Döllner,
- Abstract要約: 潜時拡散モデルにおけるスタイリスティック特性の微粒化パラメトリック制御手法を提案する。
我々は、スタイリスティックな微調整と基礎モデルの間のドメインギャップを埋めるためにガイダンス合成を使用する。
我々は、スタイリスティックにフィルタリングされた合成データセットから、さまざまなスタイリスティックな属性を学習することで、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 2.8893654860442872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have revolutionized image synthesis and editing, but precise control over stylistic attributes remains a challenge, often causing unintended content modifications. We propose an approach for fine-grained parametric control of stylistic attributes in latent diffusion models by learning disentangled editing directions from synthetic datasets. We use guidance composition to close the domain gap between stylistically finetuned and foundation models, preserving the original image semantics while applying stylistic adjustments. To ensure consistent edits, we introduce a training regularization loss and enhance DDIM inversion with optimized null-conditional embeddings for real image editing. We validate our approach by learning from stylistically filtered synthetic datasets varying a range of stylistic attributes, including outlines, local contrast, watercolorization effects, and geometric patterns. Our evaluations demonstrate that compared to current text-based editing techniques, our method offers well-integrated, more precise and continuously adjustable stylistic modifications.
- Abstract(参考訳): テキストから画像への拡散モデルは画像合成と編集に革命をもたらしたが、スタイリスティックな属性の正確な制御は依然として困難であり、意図しないコンテンツ修正を引き起こすことが多い。
本稿では, 合成データセットから不整合編集方向を学習することにより, 潜時拡散モデルにおけるスタイリスティック特性の詳細なパラメトリック制御を行う手法を提案する。
本研究では,スタイリスティックな微調整モデルと基礎モデルとのドメインギャップを埋めるためにガイダンス構成を用い,スタイリスティックな調整を施した上で,元のイメージセマンティクスを保存する。
一貫性のある編集を実現するため,実画像編集に最適化されたnull条件埋め込みを用いて,トレーニング正規化損失を導入し,DDIMのインバージョンを向上する。
我々は,スタイリスティックにフィルタリングされた合成データセットから,アウトライン,局所コントラスト,水彩色効果,幾何学的パターンなど,さまざまなスタイリスティックな属性を学習することで,我々のアプローチを検証する。
提案手法は,従来のテキストベースの編集技術と比較して,よりよく統合され,より正確で,連続的に調整可能なスタイル修正を提供する。
関連論文リスト
- AttDiff-GAN: A Hybrid Diffusion-GAN Framework for Facial Attribute Editing [78.6161238980415]
AttDiff-GANは、GANベースの属性操作と拡散ベースの画像生成を組み合わせたハイブリッドフレームワークである。
提案手法は,最先端の手法よりも,より正確な顔属性の編集と非ターゲット属性の保存が可能であることを示す。
論文 参考訳(メタデータ) (2026-04-23T05:05:46Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。