論文の概要: RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control
- arxiv url: http://arxiv.org/abs/2405.17401v1
- Date: Mon, 27 May 2024 17:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:04:26.447762
- Title: RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control
- Title(参考訳): RB-Modulation:確率的最適制御を用いた拡散モデルの学習自由パーソナライズ
- Authors: Litu Rout, Yujia Chen, Nataniel Ruiz, Abhishek Kumar, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu,
- Abstract要約: 拡散モデルの学習自由なパーソナライズのための新しいプラグアンドプレイソリューションを提案する。
RB-Modulationは、スタイル記述子が所望の属性をエンコードする新しい最適コントローラ上に構築されている。
クロスアテンションに基づく特徴集約方式により、RB変調は参照画像から内容とスタイルを分離することができる。
- 参考スコア(独自算出の注目度): 43.96257216397601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Reference-Based Modulation (RB-Modulation), a new plug-and-play solution for training-free personalization of diffusion models. Existing training-free approaches exhibit difficulties in (a) style extraction from reference images in the absence of additional style or content text descriptions, (b) unwanted content leakage from reference style images, and (c) effective composition of style and content. RB-Modulation is built on a novel stochastic optimal controller where a style descriptor encodes the desired attributes through a terminal cost. The resulting drift not only overcomes the difficulties above, but also ensures high fidelity to the reference style and adheres to the given text prompt. We also introduce a cross-attention-based feature aggregation scheme that allows RB-Modulation to decouple content and style from the reference image. With theoretical justification and empirical evidence, our framework demonstrates precise extraction and control of content and style in a training-free manner. Further, our method allows a seamless composition of content and style, which marks a departure from the dependency on external adapters or ControlNets.
- Abstract(参考訳): 拡散モデルの学習自由なパーソナライズのための新しいプラグアンドプレイソリューションである参照ベース変調(RB-Modulation)を提案する。
既存のトレーニング不要アプローチは困難を呈する
(a)追加の様式や内容の記載がない場合の参照画像からのスタイル抽出
(b)参照スタイル画像からの不要なコンテンツ漏洩、及び
(c) 文体と内容の効果的な構成。
RB-Modulationは、スタイル記述子が所望の属性を端末コストでエンコードする、新しい確率的最適コントローラ上に構築されている。
その結果、ドリフトは上記の困難を克服するだけでなく、参照スタイルへの忠実さを確保し、与えられたテキストプロンプトに固執する。
また、RB-Modulationが参照画像からコンテンツやスタイルを分離することのできる、クロスアテンションベースの機能アグリゲーションスキームも導入する。
理論的正当化と実証的な証拠により,本フレームワークは,学習自由な方法で内容やスタイルの正確な抽出と制御を実証する。
さらに,外部アダプタやコントロールネットへの依存から逸脱したコンテンツやスタイルのシームレスな構成を可能にする。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Artist: Aesthetically Controllable Text-Driven Stylization without Training [19.5597806965592]
テキスト駆動型スタイリングのための事前学習拡散モデルのコンテンツとスタイル生成を審美的に制御する,トレーニング不要なアプローチである textbfArtist を導入する。
私たちのキーとなる洞察は、コンテンツとスタイルを分離した拡散プロセスに分割し、情報を共有することです。
本手法は, 審美レベルのスタイリゼーション要件の達成, コンテンツイメージの複雑な詳細の保存, スタイルプロンプトの整合性に優れる。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - PARASOL: Parametric Style Control for Diffusion Image Synthesis [18.852986904591358]
PARASOLはマルチモーダル合成モデルであり、画像の視覚スタイルの非交叉パラメトリック制御を可能にする。
補助的セマンティクスとスタイルに基づく探索を活用して、潜伏拡散モデルの教師のためのトレーニング三重項を作成する。
論文 参考訳(メタデータ) (2023-03-11T17:30:36Z) - Towards Controllable and Photorealistic Region-wise Image Manipulation [11.601157452472714]
地域ごとのスタイル操作のための自動エンコーダアーキテクチャを用いた生成モデルを提案する。
我々は、コンテンツとスタイルの潜在表現の明示的な乱れを強制するために、コード一貫性の損失を適用します。
このモデルは、前景編集が背景コンテンツに干渉しないように、コンテンツアライメント損失によって制約される。
論文 参考訳(メタデータ) (2021-08-19T13:29:45Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。