Fugu-MT 論文翻訳(概要): Implicit Style-Content Separation using B-LoRA

論文の概要: Implicit Style-Content Separation using B-LoRA

arxiv url: http://arxiv.org/abs/2403.14572v2
Date: Sun, 22 Sep 2024 12:42:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 03:48:22.316664
Title: Implicit Style-Content Separation using B-LoRA
Title（参考訳）: B-LoRAを用いたインプシットスタイル・コンテンツ分離
Authors: Yarden Frenkel, Yael Vinker, Ariel Shamir, Daniel Cohen-Or,
Abstract要約: 一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。 SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
参考スコア（独自算出の注目度）: 61.664293840163865
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Image stylization involves manipulating the visual appearance and texture (style) of an image while preserving its underlying objects, structures, and concepts (content). The separation of style and content is essential for manipulating the image's style independently from its content, ensuring a harmonious and visually pleasing result. Achieving this separation requires a deep understanding of both the visual and semantic characteristics of images, often necessitating the training of specialized models or employing heavy optimization. In this paper, we introduce B-LoRA, a method that leverages LoRA (Low-Rank Adaptation) to implicitly separate the style and content components of a single image, facilitating various image stylization tasks. By analyzing the architecture of SDXL combined with LoRA, we find that jointly learning the LoRA weights of two specific blocks (referred to as B-LoRAs) achieves style-content separation that cannot be achieved by training each B-LoRA independently. Consolidating the training into only two blocks and separating style and content allows for significantly improving style manipulation and overcoming overfitting issues often associated with model fine-tuning. Once trained, the two B-LoRAs can be used as independent components to allow various image stylization tasks, including image style transfer, text-based image stylization, consistent style generation, and style-content mixing.
Abstract（参考訳）: イメージスタイリングは、画像の視覚的な外観とテクスチャ(スタイル)を操作しつつ、その基盤となるオブジェクト、構造、概念(コンテンツ)を保存することを含む。スタイルと内容の分離は、画像のスタイルをその内容から独立して操作するために不可欠であり、調和し、視覚的に喜ぶ結果を保証する。この分離を実現するには、画像の視覚的特徴と意味的特徴の両方を深く理解する必要がある。本稿では,LoRA(Low-Rank Adaptation)を利用して,画像のスタイルとコンテンツコンポーネントを暗黙的に分離し,画像スタイリング作業を容易にする手法であるB-LoRAを紹介する。 SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、B-LoRAと呼ばれる2つのブロックのLoRA重みを共同で学習することで、各B-LoRAを個別に訓練することでは達成できないスタイル-コンテンツ分離を実現する。トレーニングを2ブロックに集約し、スタイルとコンテンツを分離することで、スタイル操作を大幅に改善し、モデル微調整に関連する過度な問題を克服できます。トレーニングが完了すると、2つのB-LoRAは独立したコンポーネントとして使用でき、画像スタイルの転送、テキストベースの画像スタイリング、一貫したスタイル生成、スタイル内容の混合など、様々な画像スタイリングタスクが可能である。

関連論文リスト

DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。 DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文参考訳（メタデータ） (2025-04-24T08:10:10Z)
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer [20.088714830700916]
スタイル転送は、参照画像からターゲット画像の内容へのスタイル転送を伴う。 LoRA(Low-Rank Adaptation)手法の最近の進歩は、単一の画像のスタイルを効果的に捉えることに有望であることを示している。これらのアプローチは、コンテンツの不整合、スタイルのミスアライメント、コンテンツリークといった重要な課題に直面している。
論文参考訳（メタデータ） (2025-03-13T17:55:58Z)
UnZipLoRA: Separating Content and Style from a Single Image [16.61595725708187]
UnZipLoRAは、イメージを構成対象とスタイルに分解する方法である。 UnZipLoRAは、両方のLoRAを同時にトレーニングすることで、これらの要素を単一のイメージから切り離す。
論文参考訳（メタデータ） (2024-12-05T18:59:50Z)
LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文参考訳（メタデータ） (2024-11-28T13:55:06Z)
DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文参考訳（メタデータ） (2024-10-19T06:42:43Z)
StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文参考訳（メタデータ） (2024-08-18T14:27:20Z)
Customizing Text-to-Image Models with a Single Image Pair [47.49970731632113]
芸術再解釈(Art repretation)は、参照された作品のバリエーションを作成し、異なる芸術様式を示すペアアートを作るプラクティスである。 Pair Customizationは1つの画像対からスタイリスティックな違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法である。
論文参考訳（メタデータ） (2024-05-02T17:59:52Z)
MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文参考訳（メタデータ） (2024-04-25T13:51:38Z)
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文参考訳（メタデータ） (2024-04-03T13:34:09Z)
StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。 T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文参考訳（メタデータ） (2023-09-04T19:16:46Z)
Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文参考訳（メタデータ） (2022-05-19T13:11:24Z)
Style Transfer with Target Feature Palette and Attention Coloring [15.775618544581885]
特徴パレットをターゲットとした新しい芸術的スタイル化手法を提案し,重要な特徴を正確に伝達することができる。このスタイリング画像は、コア構造とコンテンツ画像の詳細の保存に長けながら、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2021-11-07T08:09:20Z)
Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文参考訳（メタデータ） (2020-05-27T08:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。