論文の概要: Implicit Style-Content Separation using B-LoRA
- arxiv url: http://arxiv.org/abs/2403.14572v2
- Date: Sun, 22 Sep 2024 12:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 03:48:22.316664
- Title: Implicit Style-Content Separation using B-LoRA
- Title(参考訳): B-LoRAを用いたインプシットスタイル・コンテンツ分離
- Authors: Yarden Frenkel, Yael Vinker, Ariel Shamir, Daniel Cohen-Or,
- Abstract要約: 一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
- 参考スコア(独自算出の注目度): 61.664293840163865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image stylization involves manipulating the visual appearance and texture (style) of an image while preserving its underlying objects, structures, and concepts (content). The separation of style and content is essential for manipulating the image's style independently from its content, ensuring a harmonious and visually pleasing result. Achieving this separation requires a deep understanding of both the visual and semantic characteristics of images, often necessitating the training of specialized models or employing heavy optimization. In this paper, we introduce B-LoRA, a method that leverages LoRA (Low-Rank Adaptation) to implicitly separate the style and content components of a single image, facilitating various image stylization tasks. By analyzing the architecture of SDXL combined with LoRA, we find that jointly learning the LoRA weights of two specific blocks (referred to as B-LoRAs) achieves style-content separation that cannot be achieved by training each B-LoRA independently. Consolidating the training into only two blocks and separating style and content allows for significantly improving style manipulation and overcoming overfitting issues often associated with model fine-tuning. Once trained, the two B-LoRAs can be used as independent components to allow various image stylization tasks, including image style transfer, text-based image stylization, consistent style generation, and style-content mixing.
- Abstract(参考訳): イメージスタイリングは、画像の視覚的な外観とテクスチャ(スタイル)を操作しつつ、その基盤となるオブジェクト、構造、概念(コンテンツ)を保存することを含む。
スタイルと内容の分離は、画像のスタイルをその内容から独立して操作するために不可欠であり、調和し、視覚的に喜ぶ結果を保証する。
この分離を実現するには、画像の視覚的特徴と意味的特徴の両方を深く理解する必要がある。
本稿では,LoRA(Low-Rank Adaptation)を利用して,画像のスタイルとコンテンツコンポーネントを暗黙的に分離し,画像スタイリング作業を容易にする手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、B-LoRAと呼ばれる2つのブロックのLoRA重みを共同で学習することで、各B-LoRAを個別に訓練することでは達成できないスタイル-コンテンツ分離を実現する。
トレーニングを2ブロックに集約し、スタイルとコンテンツを分離することで、スタイル操作を大幅に改善し、モデル微調整に関連する過度な問題を克服できます。
トレーニングが完了すると、2つのB-LoRAは独立したコンポーネントとして使用でき、画像スタイルの転送、テキストベースの画像スタイリング、一貫したスタイル生成、スタイル内容の混合など、様々な画像スタイリングタスクが可能である。
関連論文リスト
- A LoRA is Worth a Thousand Pictures [28.928964530616593]
低ランク適応(LoRA)は、最小限のデータと計算を用いてアーティストのスタイルや主題を再現することができる。
画像生成やトレーニングセットの知識を必要とせずに,LoRA重みだけで効果的なスタイル記述子として機能することを示す。
ゼロショットLORAファインチューニングやモデル属性など,将来的な応用の可能性について論じる。
論文 参考訳(メタデータ) (2024-12-16T18:18:17Z) - UnZipLoRA: Separating Content and Style from a Single Image [16.61595725708187]
UnZipLoRAは、イメージを構成対象とスタイルに分解する方法である。
UnZipLoRAは、両方のLoRAを同時にトレーニングすることで、これらの要素を単一のイメージから切り離す。
論文 参考訳(メタデータ) (2024-12-05T18:59:50Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - Customizing Text-to-Image Models with a Single Image Pair [47.49970731632113]
芸術再解釈(Art repretation)は、参照された作品のバリエーションを作成し、異なる芸術様式を示すペアアートを作るプラクティスである。
Pair Customizationは1つの画像対からスタイリスティックな違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-05-02T17:59:52Z) - MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。
これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文 参考訳(メタデータ) (2024-04-25T13:51:38Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。