論文の概要: One-shot Embroidery Customization via Contrastive LoRA Modulation
- arxiv url: http://arxiv.org/abs/2509.18948v1
- Date: Tue, 23 Sep 2025 12:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.845318
- Title: One-shot Embroidery Customization via Contrastive LoRA Modulation
- Title(参考訳): コントラスト型LORA変調によるワンショット内刺術のカスタマイズ
- Authors: Jun Ma, Qian He, Gaofeng He, Huang Chen, Chen Liu, Xiaogang Jin, Huamin Wang,
- Abstract要約: 本稿では,単一参照画像で微細なスタイルとコンテンツ特徴を分離する,新しいコントラスト学習フレームワークを提案する。
細粒度スタイル転送の手法を評価するため,刺青カスタマイズのためのベンチマークを構築した。
- 参考スコア(独自算出の注目度): 20.463441212598273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly advanced image manipulation techniques, and their ability to generate photorealistic images is beginning to transform retail workflows, particularly in presale visualization. Beyond artistic style transfer, the capability to perform fine-grained visual feature transfer is becoming increasingly important. Embroidery is a textile art form characterized by intricate interplay of diverse stitch patterns and material properties, which poses unique challenges for existing style transfer methods. To explore the customization for such fine-grained features, we propose a novel contrastive learning framework that disentangles fine-grained style and content features with a single reference image, building on the classic concept of image analogy. We first construct an image pair to define the target style, and then adopt a similarity metric based on the decoupled representations of pretrained diffusion models for style-content separation. Subsequently, we propose a two-stage contrastive LoRA modulation technique to capture fine-grained style features. In the first stage, we iteratively update the whole LoRA and the selected style blocks to initially separate style from content. In the second stage, we design a contrastive learning strategy to further decouple style and content through self-knowledge distillation. Finally, we build an inference pipeline to handle image or text inputs with only the style blocks. To evaluate our method on fine-grained style transfer, we build a benchmark for embroidery customization. Our approach surpasses prior methods on this task and further demonstrates strong generalization to three additional domains: artistic style transfer, sketch colorization, and appearance transfer.
- Abstract(参考訳): 拡散モデルは非常に高度な画像操作技術を備えており、特に事前可視化において、フォトリアリスティックな画像を生成する能力は小売ワークフローを変革し始めている。
芸術的スタイルの伝達以外にも、きめ細かい視覚的特徴伝達を行う能力はますます重要になりつつある。
Embroideryは、様々な縫製パターンと材料特性の複雑な相互作用を特徴とする織物芸術であり、既存のスタイルの転写方法に固有の課題を提起している。
このような細粒度特徴のカスタマイズを探求するために,画像アナロジーの古典的概念に基づいて,単一の参照画像で細粒度スタイルとコンテンツ特徴を分離する,新しいコントラスト学習フレームワークを提案する。
まず、対象のスタイルを定義するために画像ペアを構築し、次に、事前学習された拡散モデルの疎結合表現に基づく類似度メトリクスをスタイルコンテンツ分離に適用する。
次に,2段階の対照的なLoRA変調手法を提案する。
最初の段階では、LoRAと選択されたスタイルブロック全体を反復的に更新して、最初はコンテンツからスタイルを分離します。
第2段階では, 自己知識蒸留を通じて, スタイルと内容をさらに分離するコントラスト学習戦略を設計する。
最後に、スタイルブロックのみで画像やテキスト入力を処理するための推論パイプラインを構築します。
細粒度スタイル転送の手法を評価するため,刺青カスタマイズのためのベンチマークを構築した。
本手法は, 従来の手法を超越して, さらに芸術的スタイル変換, スケッチカラー化, 外観変換という3つの領域への強い一般化を実証する。
関連論文リスト
- Break Stylistic Sophon: Are We Really Meant to Confine the Imagination in Style Transfer? [12.2238770989173]
StyleWallfacerは、統一的なトレーニングと推論フレームワークである。
従来の方法のスタイル転送プロセスで発生する様々な問題に対処する。
アーティストレベルのスタイル転送とテキスト駆動のスタイル化を提供する。
論文 参考訳(メタデータ) (2025-06-18T00:24:29Z) - Multiscale style transfer based on a Laplacian pyramid for traditional Chinese painting [6.248530911794617]
そこで本研究では,ラプラシアンピラミッドの分解と再構築に基づく,新しいマルチスケール・トランスファー手法を提案する。
第1段階では、スタイル転送ベースネットワークを採用することにより、全体的なパターンを低解像度で転送する。
内容とスタイルの詳細は、ディテールエンハンスメントネットワークにより、より高解像度で徐々に強化される。
論文 参考訳(メタデータ) (2025-02-07T01:04:49Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。
また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:43:23Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。