論文の概要: ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer
- arxiv url: http://arxiv.org/abs/2503.10614v1
- Date: Thu, 13 Mar 2025 17:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:28.664819
- Title: ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer
- Title(参考訳): ConsisLoRA:LoRAベースのスタイル転送のためのコンテンツとスタイルの一貫性を強化する
- Authors: Bolin Chen, Baoquan Zhao, Haoran Xie, Yi Cai, Qing Li, Xudong Mao,
- Abstract要約: スタイル転送は、参照画像からターゲット画像の内容へのスタイル転送を伴う。
LoRA(Low-Rank Adaptation)手法の最近の進歩は、単一の画像のスタイルを効果的に捉えることに有望であることを示している。
これらのアプローチは、コンテンツの不整合、スタイルのミスアライメント、コンテンツリークといった重要な課題に直面している。
- 参考スコア(独自算出の注目度): 20.088714830700916
- License:
- Abstract: Style transfer involves transferring the style from a reference image to the content of a target image. Recent advancements in LoRA-based (Low-Rank Adaptation) methods have shown promise in effectively capturing the style of a single image. However, these approaches still face significant challenges such as content inconsistency, style misalignment, and content leakage. In this paper, we comprehensively analyze the limitations of the standard diffusion parameterization, which learns to predict noise, in the context of style transfer. To address these issues, we introduce ConsisLoRA, a LoRA-based method that enhances both content and style consistency by optimizing the LoRA weights to predict the original image rather than noise. We also propose a two-step training strategy that decouples the learning of content and style from the reference image. To effectively capture both the global structure and local details of the content image, we introduce a stepwise loss transition strategy. Additionally, we present an inference guidance method that enables continuous control over content and style strengths during inference. Through both qualitative and quantitative evaluations, our method demonstrates significant improvements in content and style consistency while effectively reducing content leakage.
- Abstract(参考訳): スタイル転送は、参照画像からターゲット画像の内容へのスタイル転送を伴う。
LoRA(Low-Rank Adaptation)手法の最近の進歩は、単一の画像のスタイルを効果的に捉えることに有望であることを示している。
しかし、これらのアプローチはコンテンツの不整合、スタイルのミスアライメント、コンテンツリークといった重大な課題に直面している。
本稿では,音の予測を学習する標準拡散パラメタライゼーションの限界を,スタイル伝達の文脈で包括的に解析する。
これらの問題に対処するために,LoRAの重み付けを最適化し,ノイズではなくオリジナル画像を予測することで,コンテンツとスタイルの整合性を両立させるConsisLoRAを提案する。
また、参照画像からコンテンツとスタイルの学習を分離する2段階のトレーニング戦略を提案する。
コンテンツ画像のグローバルな構造と局所的な詳細の両方を効果的に把握するために、ステップワイズ・ロス・トランジション・ストラテジーを導入する。
また,推論中にコンテンツやスタイルの強みを連続的に制御できる推論誘導手法を提案する。
質的,定量的両評価により,コンテンツリークを効果的に低減しつつ,コンテンツとスタイルの整合性を大幅に向上することを示す。
関連論文リスト
- StyleSSP: Sampling StartPoint Enhancement for Training-free Diffusion-based Method for Style Transfer [0.5740526382143176]
学習自由拡散に基づく手法は、スタイル伝達において顕著な成功を収めた。
しかし、トレーニング不要な手法は、オリジナルコンテンツのレイアウト変更やスタイルイメージからのコンテンツのリークに悩まされることが多い。
そこで我々は,スタイルイメージからオリジナルコンテンツのレイアウト変更やコンテンツのリークに対処するための,より良いスタートポイントの獲得を目的としたStyleSSPを提案する。
論文 参考訳(メタデータ) (2025-01-20T07:45:42Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DiffStyler: Diffusion-based Localized Image Style Transfer [0.0]
画像スタイル転送は、色、ブラシストローク、形状など、スタイルターゲットの特徴的な特性を持つデジタルイメージを埋め込むことを目的としている。
任意のスタイル転送手法の進歩にもかかわらず、コンテンツセマンティクスとスタイル属性の微妙な均衡は依然として大きな課題である。
本稿ではDiffStylerについて紹介する。DiffStylerは、任意の画像スタイルの効率的な転送を容易にする新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-27T11:19:34Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - TSSAT: Two-Stage Statistics-Aware Transformation for Artistic Style
Transfer [22.16475032434281]
芸術的スタイルの転送は、対象の芸術的スタイルで与えられた写真をレンダリングすることで、新しい芸術的イメージを作成することを目的としている。
既存の手法では、グローバルな統計や局所的なパッチに基づいてスタイルを学習し、実際の描画過程の注意深い考慮を欠いている。
本稿では,コンテンツとスタイルの特徴のグローバルな統計を整合させて,まずグローバルなスタイル基盤を構築する2段階統計認識変換(TSSAT)モジュールを提案する。
コンテンツとスタイルの表現をさらに強化するために、注意に基づくコンテンツ損失とパッチベースのスタイル損失という2つの新しい損失を導入する。
論文 参考訳(メタデータ) (2023-09-12T07:02:13Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z) - Parameter-Free Style Projection for Arbitrary Style Transfer [64.06126075460722]
本稿では,パラメータフリー,高速,効果的なコンテンツスタイル変換のための特徴レベル変換手法であるStyle Projectionを提案する。
本稿では、任意の画像スタイルの転送にスタイル投影を利用するリアルタイムフィードフォワードモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T13:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。