論文の概要: MuseumMaker: Continual Style Customization without Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2404.16612v1
- Date: Thu, 25 Apr 2024 13:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:30:22.218899
- Title: MuseumMaker: Continual Style Customization without Catastrophic Forgetting
- Title(参考訳): MuseumMaker: 破滅的な忘れ物のない継続的スタイルのカスタマイズ
- Authors: Chenxi Liu, Gan Sun, Wenqi Liang, Jiahua Dong, Can Qin, Yang Cong,
- Abstract要約: 本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新たなカスタマイズスタイルに直面すると、データセット全体のスタイルを画像生成に転送するスタイル蒸留損失モジュールを開発する。
画像の内容による学習バイアスを最小限に抑え、少数の画像によって引き起こされる壊滅的な過適合問題に対処することができる。
- 参考スコア(独自算出の注目度): 50.12727620780213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large text-to-image (T2I) models with an appropriate text prompt has attracted growing interests in customized images generation field. However, catastrophic forgetting issue make it hard to continually synthesize new user-provided styles while retaining the satisfying results amongst learned styles. In this paper, we propose MuseumMaker, a method that enables the synthesis of images by following a set of customized styles in a never-end manner, and gradually accumulate these creative artistic works as a Museum. When facing with a new customization style, we develop a style distillation loss module to transfer the style of the whole dataset into generation of images. It can minimize the learning biases caused by content of images, and address the catastrophic overfitting issue induced by few-shot images. To deal with catastrophic forgetting amongst past learned styles, we devise a dual regularization for shared-LoRA module to optimize the direction of model update, which could regularize the diffusion model from both weight and feature aspects, respectively. Meanwhile, a unique token embedding corresponding to this new style is learned by a task-wise token learning module, which could preserve historical knowledge from past styles with the limitation of LoRA parameter quantity. As any new user-provided style come, our MuseumMaker can capture the nuances of the new styles while maintaining the details of learned styles. Experimental results on diverse style datasets validate the effectiveness of our proposed MuseumMaker method, showcasing its robustness and versatility across various scenarios.
- Abstract(参考訳): 適切なテキストプロンプトを持つ事前訓練された大型テキスト・ツー・イメージ(T2I)モデルは、カスタマイズされた画像生成分野への関心が高まっている。
しかし、悲惨な忘れ物問題により、学習スタイル間の満足度を維持しつつ、新しいユーザ提供スタイルを継続的に合成することが困難になる。
本稿では,無期限にカスタマイズされたスタイルの集合を追従して画像の合成を可能にする手法であるMuseumMakerを提案し,これらの創造的な芸術作品を博物館として徐々に蓄積する。
新たなカスタマイズスタイルに直面すると、データセット全体のスタイルを画像生成に転送するスタイル蒸留損失モジュールを開発する。
画像の内容による学習バイアスを最小限に抑え、少数の画像によって引き起こされる壊滅的な過適合問題に対処することができる。
過去の学習スタイル間の破滅的な忘れを解消するため,モデル更新の方向を最適化する共有LoRAモジュールの二重正規化を考案した。
一方、この新しいスタイルに対応するユニークなトークン埋め込みはタスクワイドトークン学習モジュールによって学習され、LoRAパラメータ量の制限により過去のスタイルからの履歴知識を保存できる。
新しいユーザ提供スタイルが登場するにつれて、MuseumMakerは学習スタイルの詳細を維持しながら、新しいスタイルのニュアンスをキャプチャすることができます。
多様なスタイルのデータセットによる実験結果から,提案手法の有効性を検証し,その堅牢性と汎用性を示す。
関連論文リスト
- One-Shot Structure-Aware Stylized Image Synthesis [7.418475280387784]
OSASISは構造保存に堅牢な新しい一発スタイリング手法である。
我々は、OSASISが画像の構造から意味を効果的に切り離し、与えられた入力に実装されたコンテンツやスタイルのレベルを制御することができることを示す。
以上の結果から,OSASISは他のスタイリング手法,特にトレーニング中にほとんど遭遇しなかった入力画像よりも優れていた。
論文 参考訳(メタデータ) (2024-02-27T07:42:55Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion
Models [18.36484757267787]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - DIFF-NST: Diffusion Interleaving For deFormable Neural Style Transfer [27.39248034592382]
変形可能なスタイル転送を実現しつつ,新しいモデルのクラスを用いてスタイル転送を行う。
これらのモデルの先行モデルを活用することで、推論時に新たな芸術的コントロールが公開できることを示す。
論文 参考訳(メタデータ) (2023-07-09T12:13:43Z) - Style-Agnostic Reinforcement Learning [9.338454092492901]
本稿では,スタイル伝達と逆学習の両方を用いて,スタイル非依存表現を学習する新しい手法を提案する。
本手法は,固有対向型生成器から生成される多様な画像スタイルでアクターを訓練する。
提案手法は,Procgen and Distracting Control Suiteベンチマークにおける最先端の手法よりも,競争力や性能の向上が期待できる。
論文 参考訳(メタデータ) (2022-08-31T13:45:00Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。