論文の概要: MuseumMaker: Continual Style Customization without Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2404.16612v1
- Date: Thu, 25 Apr 2024 13:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:30:22.218899
- Title: MuseumMaker: Continual Style Customization without Catastrophic Forgetting
- Title(参考訳): MuseumMaker: 破滅的な忘れ物のない継続的スタイルのカスタマイズ
- Authors: Chenxi Liu, Gan Sun, Wenqi Liang, Jiahua Dong, Can Qin, Yang Cong,
- Abstract要約: 本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新たなカスタマイズスタイルに直面すると、データセット全体のスタイルを画像生成に転送するスタイル蒸留損失モジュールを開発する。
画像の内容による学習バイアスを最小限に抑え、少数の画像によって引き起こされる壊滅的な過適合問題に対処することができる。
- 参考スコア(独自算出の注目度): 50.12727620780213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large text-to-image (T2I) models with an appropriate text prompt has attracted growing interests in customized images generation field. However, catastrophic forgetting issue make it hard to continually synthesize new user-provided styles while retaining the satisfying results amongst learned styles. In this paper, we propose MuseumMaker, a method that enables the synthesis of images by following a set of customized styles in a never-end manner, and gradually accumulate these creative artistic works as a Museum. When facing with a new customization style, we develop a style distillation loss module to transfer the style of the whole dataset into generation of images. It can minimize the learning biases caused by content of images, and address the catastrophic overfitting issue induced by few-shot images. To deal with catastrophic forgetting amongst past learned styles, we devise a dual regularization for shared-LoRA module to optimize the direction of model update, which could regularize the diffusion model from both weight and feature aspects, respectively. Meanwhile, a unique token embedding corresponding to this new style is learned by a task-wise token learning module, which could preserve historical knowledge from past styles with the limitation of LoRA parameter quantity. As any new user-provided style come, our MuseumMaker can capture the nuances of the new styles while maintaining the details of learned styles. Experimental results on diverse style datasets validate the effectiveness of our proposed MuseumMaker method, showcasing its robustness and versatility across various scenarios.
- Abstract(参考訳): 適切なテキストプロンプトを持つ事前訓練された大型テキスト・ツー・イメージ(T2I)モデルは、カスタマイズされた画像生成分野への関心が高まっている。
しかし、悲惨な忘れ物問題により、学習スタイル間の満足度を維持しつつ、新しいユーザ提供スタイルを継続的に合成することが困難になる。
本稿では,無期限にカスタマイズされたスタイルの集合を追従して画像の合成を可能にする手法であるMuseumMakerを提案し,これらの創造的な芸術作品を博物館として徐々に蓄積する。
新たなカスタマイズスタイルに直面すると、データセット全体のスタイルを画像生成に転送するスタイル蒸留損失モジュールを開発する。
画像の内容による学習バイアスを最小限に抑え、少数の画像によって引き起こされる壊滅的な過適合問題に対処することができる。
過去の学習スタイル間の破滅的な忘れを解消するため,モデル更新の方向を最適化する共有LoRAモジュールの二重正規化を考案した。
一方、この新しいスタイルに対応するユニークなトークン埋め込みはタスクワイドトークン学習モジュールによって学習され、LoRAパラメータ量の制限により過去のスタイルからの履歴知識を保存できる。
新しいユーザ提供スタイルが登場するにつれて、MuseumMakerは学習スタイルの詳細を維持しながら、新しいスタイルのニュアンスをキャプチャすることができます。
多様なスタイルのデータセットによる実験結果から,提案手法の有効性を検証し,その堅牢性と汎用性を示す。
関連論文リスト
- Customizing Text-to-Image Models with a Single Image Pair [47.49970731632113]
芸術再解釈(Art repretation)は、参照された作品のバリエーションを作成し、異なる芸術様式を示すペアアートを作るプラクティスである。
Pair Customizationは1つの画像対からスタイリスティックな違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-05-02T17:59:52Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and
Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。
既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。
本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T05:53:40Z) - DIFF-NST: Diffusion Interleaving For deFormable Neural Style Transfer [27.39248034592382]
変形可能なスタイル転送を実現しつつ,新しいモデルのクラスを用いてスタイル転送を行う。
これらのモデルの先行モデルを活用することで、推論時に新たな芸術的コントロールが公開できることを示す。
論文 参考訳(メタデータ) (2023-07-09T12:13:43Z) - StyleAdv: Meta Style Adversarial Training for Cross-Domain Few-Shot
Learning [89.86971464234533]
Cross-Domain Few-Shot Learning (CD-FSL)は、最近登場したタスクで、異なるドメインにわたる数ショットの学習に対処している。
本稿では,モデルに依存しないメタスタイル逆アタック(StyleAdv)手法と,新しいスタイル逆アタック手法を提案する。
本手法は視覚的スタイルに対して徐々に頑健であり,新たなターゲットデータセットの一般化能力を高める。
論文 参考訳(メタデータ) (2023-02-18T11:54:37Z) - Style-Agnostic Reinforcement Learning [9.338454092492901]
本稿では,スタイル伝達と逆学習の両方を用いて,スタイル非依存表現を学習する新しい手法を提案する。
本手法は,固有対向型生成器から生成される多様な画像スタイルでアクターを訓練する。
提案手法は,Procgen and Distracting Control Suiteベンチマークにおける最先端の手法よりも,競争力や性能の向上が期待できる。
論文 参考訳(メタデータ) (2022-08-31T13:45:00Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - StyleAugment: Learning Texture De-biased Representations by Style
Augmentation without Pre-defined Textures [7.81768535871051]
最近の強力な視覚分類器はテクスチャに偏り、形状情報はモデルによって見過ごされている。
Stylized ImageNetと呼ばれるアートスタイルのトランスファー手法を用いて、トレーニング画像を増強する簡単な試みは、テクスチャバイアスを低減することができる。
しかし、Stylized ImageNetアプローチには、忠実度と多様性の2つの欠点がある。
ミニバッチからスタイルを拡張したStyleAugmentを提案する。
論文 参考訳(メタデータ) (2021-08-24T07:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。