論文の概要: SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning
- arxiv url: http://arxiv.org/abs/2504.00396v3
- Date: Tue, 27 May 2025 13:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.31017
- Title: SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning
- Title(参考訳): SPF-Portrait: セマンティック汚染のないファインチューニングによる純テキスト・ツー・ポートレートのカスタマイズに向けて
- Authors: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng,
- Abstract要約: SPF-Portraitは、カスタマイズされたターゲットセマンティクスを純粋に理解し、オリジナルのモデルの破壊を最小限にする先駆的な作業である。
筆者らはSPF-Portraitにおいて,行動アライメント参照としてオリジナルのモデルを導入したデュアルパスコントラスト学習パイプラインを設計した。
異なる領域間の行動アライメントと、ターゲットセマンティクスの応答性を適応的にバランスさせる。
- 参考スコア(独自算出の注目度): 33.709835660394305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait dataset is the mainstream method for text-to-portrait customization. However, existing methods often severely impact the original model's behavior (e.g., changes in ID, layout, etc.) while customizing portrait attributes. To address this issue, we propose SPF-Portrait, a pioneering work to purely understand customized target semantics and minimize disruption to the original model. In our SPF-Portrait, we design a dual-path contrastive learning pipeline, which introduces the original model as a behavioral alignment reference for the conventional fine-tuning path. During the contrastive learning, we propose a novel Semantic-Aware Fine Control Map that indicates the intensity of response regions of the target semantics, to spatially guide the alignment process between the contrastive paths. It adaptively balances the behavioral alignment across different regions and the responsiveness of the target semantics. Furthermore, we propose a novel response enhancement mechanism to reinforce the presentation of target semantics, while mitigating representation discrepancy inherent in direct cross-modal supervision. Through the above strategies, we achieve incremental learning of customized target semantics for pure text-to-portrait customization. Extensive experiments show that SPF-Portrait achieves state-of-the-art performance. Project page: https://spf-portrait.github.io/SPF-Portrait/
- Abstract(参考訳): カスタマイズされたポートレートデータセット上で、事前訓練されたテキスト・ツー・イメージ(T2I)モデルを微調整することは、テキスト・ツー・ポートレートのカスタマイズの主流の方法である。
しかし、既存のメソッドは、ポートレート属性をカスタマイズしながら、元のモデルの振る舞い(例えば、ID、レイアウトの変更など)に深刻な影響を与えます。
この問題に対処するために,SPF-Portraitを提案する。SPF-Portraitは,カスタマイズされたターゲットセマンティクスを純粋に理解し,オリジナルモデルの破壊を最小限に抑えるための先駆的な作業である。
筆者らはSPF-Portraitにおいて、従来の微調整パスの行動アライメント基準としてオリジナルのモデルを導入したデュアルパスコントラスト学習パイプラインを設計した。
コントラスト学習において,対象セマンティクスの応答領域の強度を示すセマンティック・アウェア・ファイン・コントロール・マップを提案し,コントラストパス間のアライメントプロセスを空間的に導く。
異なる領域間の行動アライメントと、ターゲットセマンティクスの応答性を適応的にバランスさせる。
さらに, 直接的相互監視に固有の表現の相違を緩和しつつ, 対象意味論の提示を強化する新しい応答強化機構を提案する。
以上の戦略を通じて、純粋なテキストから画像へのカスタマイズのために、カスタマイズされたターゲットセマンティクスを段階的に学習する。
大規模な実験により、SPF-ポートレートは最先端の性能を達成することが示された。
プロジェクトページ:https://spf-portrait.github.io/SPF-Portrait/
関連論文リスト
- TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization [31.960807999301196]
本稿では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。
具体的には、DreamMatcherはターゲットの値をセマンティックマッチングで整列された参照値に置き換えるが、構造パスは変わらない。
また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
論文 参考訳(メタデータ) (2024-02-15T09:21:16Z) - SPColor: Semantic Prior Guided Exemplar-based Image Colorization [14.191819767895867]
本研究では,SPColorを提案する。
SPColorはまず、参照画像とターゲット画像のピクセルをセマンティック先行のガイダンスの下で複数の擬似クラスに分類する。
我々のモデルは、最近の最先端の手法を定量的にも質的にも、公開データセット上でも優れています。
論文 参考訳(メタデータ) (2023-04-13T04:21:45Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Learning Pixel-Adaptive Weights for Portrait Photo Retouching [1.9843222704723809]
ポートレート写真リタッチ(Portrait photo retouching)は、人間の領域の優先度とグループレベルの一貫性を強調する写真リタッチタスクである。
本稿では,局所的なコンテキストキューをモデル化し,手直し品質を明示的に改善する。
PPR10Kデータセットの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T07:23:42Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic
Segmentation [97.74059510314554]
セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。
既存の手法では、大きなドメインギャップに悩まされながら、ドメイン不変の特徴を学習しようとする。
本稿では,新しいDual Soft-Paste (DSP)法を提案する。
論文 参考訳(メタデータ) (2021-07-20T16:22:40Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Learning Semantic Person Image Generation by Region-Adaptive
Normalization [81.52223606284443]
ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。
第1段階では,対象意味解析マップを予測し,ポーズ転送の難しさを解消する。
第2段階では,領域適応正規化を組み込んだ新たな人物画像生成手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T06:51:37Z) - Consistency Regularization with High-dimensional Non-adversarial
Source-guided Perturbation for Unsupervised Domain Adaptation in Segmentation [15.428323201750144]
BiSIDAは、未ラベルのターゲットデータセットからの情報を効率的に活用するために、一貫性の正則化を採用している。
BiSIDAは、一般的に使われている2つの合成-実領域適応ベンチマーク上で、新しい最先端を実現する。
論文 参考訳(メタデータ) (2020-09-18T03:26:44Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。