論文の概要: Implicit Style-Content Separation using B-LoRA
- arxiv url: http://arxiv.org/abs/2403.14572v2
- Date: Sun, 22 Sep 2024 12:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 03:48:22.316664
- Title: Implicit Style-Content Separation using B-LoRA
- Title(参考訳): B-LoRAを用いたインプシットスタイル・コンテンツ分離
- Authors: Yarden Frenkel, Yael Vinker, Ariel Shamir, Daniel Cohen-Or,
- Abstract要約: 一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
- 参考スコア(独自算出の注目度): 61.664293840163865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image stylization involves manipulating the visual appearance and texture (style) of an image while preserving its underlying objects, structures, and concepts (content). The separation of style and content is essential for manipulating the image's style independently from its content, ensuring a harmonious and visually pleasing result. Achieving this separation requires a deep understanding of both the visual and semantic characteristics of images, often necessitating the training of specialized models or employing heavy optimization. In this paper, we introduce B-LoRA, a method that leverages LoRA (Low-Rank Adaptation) to implicitly separate the style and content components of a single image, facilitating various image stylization tasks. By analyzing the architecture of SDXL combined with LoRA, we find that jointly learning the LoRA weights of two specific blocks (referred to as B-LoRAs) achieves style-content separation that cannot be achieved by training each B-LoRA independently. Consolidating the training into only two blocks and separating style and content allows for significantly improving style manipulation and overcoming overfitting issues often associated with model fine-tuning. Once trained, the two B-LoRAs can be used as independent components to allow various image stylization tasks, including image style transfer, text-based image stylization, consistent style generation, and style-content mixing.
- Abstract(参考訳): イメージスタイリングは、画像の視覚的な外観とテクスチャ(スタイル)を操作しつつ、その基盤となるオブジェクト、構造、概念(コンテンツ)を保存することを含む。
スタイルと内容の分離は、画像のスタイルをその内容から独立して操作するために不可欠であり、調和し、視覚的に喜ぶ結果を保証する。
この分離を実現するには、画像の視覚的特徴と意味的特徴の両方を深く理解する必要がある。
本稿では,LoRA(Low-Rank Adaptation)を利用して,画像のスタイルとコンテンツコンポーネントを暗黙的に分離し,画像スタイリング作業を容易にする手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、B-LoRAと呼ばれる2つのブロックのLoRA重みを共同で学習することで、各B-LoRAを個別に訓練することでは達成できないスタイル-コンテンツ分離を実現する。
トレーニングを2ブロックに集約し、スタイルとコンテンツを分離することで、スタイル操作を大幅に改善し、モデル微調整に関連する過度な問題を克服できます。
トレーニングが完了すると、2つのB-LoRAは独立したコンポーネントとして使用でき、画像スタイルの転送、テキストベースの画像スタイリング、一貫したスタイル生成、スタイル内容の混合など、様々な画像スタイリングタスクが可能である。
関連論文リスト
- DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - Customizing Text-to-Image Models with a Single Image Pair [47.49970731632113]
芸術再解釈(Art repretation)は、参照された作品のバリエーションを作成し、異なる芸術様式を示すペアアートを作るプラクティスである。
Pair Customizationは1つの画像対からスタイリスティックな違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-05-02T17:59:52Z) - MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。
これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文 参考訳(メタデータ) (2024-04-25T13:51:38Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Style Transfer with Target Feature Palette and Attention Coloring [15.775618544581885]
特徴パレットをターゲットとした新しい芸術的スタイル化手法を提案し,重要な特徴を正確に伝達することができる。
このスタイリング画像は、コア構造とコンテンツ画像の詳細の保存に長けながら、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-11-07T08:09:20Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。