論文の概要: SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
- arxiv url: http://arxiv.org/abs/2504.00396v1
- Date: Tue, 01 Apr 2025 03:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.92393
- Title: SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
- Title(参考訳): SPF-Portrait: セマンティック汚染のないファインチューニングによる純ポートレートのカスタマイズに向けて
- Authors: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng,
- Abstract要約: SPF-Portraitは、テキスト駆動のポートレートカスタマイズにおいてセマンティックな汚染を排除しつつ、カスタマイズされたセマンティクスを純粋に理解する先駆的な研究である。
筆者らはSPF-Portraitにおいて,従来の微調整パスの参照としてオリジナルのモデルを導入したデュアルパスパイプラインを提案する。
本稿では,ターゲットセマンティクスの応答領域を正確に表現するセマンティック・アウェア・ファイン・コントロール・マップを提案する。
- 参考スコア(独自算出の注目度): 33.709835660394305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While fine-tuning pre-trained Text-to-Image (T2I) models on portrait datasets enables attribute customization, existing methods suffer from Semantic Pollution that compromises the original model's behavior and prevents incremental learning. To address this, we propose SPF-Portrait, a pioneering work to purely understand customized semantics while eliminating semantic pollution in text-driven portrait customization. In our SPF-Portrait, we propose a dual-path pipeline that introduces the original model as a reference for the conventional fine-tuning path. Through contrastive learning, we ensure adaptation to target attributes and purposefully align other unrelated attributes with the original portrait. We introduce a novel Semantic-Aware Fine Control Map, which represents the precise response regions of the target semantics, to spatially guide the alignment process between the contrastive paths. This alignment process not only effectively preserves the performance of the original model but also avoids over-alignment. Furthermore, we propose a novel response enhancement mechanism to reinforce the performance of target attributes, while mitigating representation discrepancy inherent in direct cross-modal supervision. Extensive experiments demonstrate that SPF-Portrait achieves state-of-the-art performance.
- Abstract(参考訳): ポートレートデータセット上の微調整済みのテキスト・トゥ・イメージ(T2I)モデルは属性のカスタマイズを可能にするが、既存のメソッドは、オリジナルのモデルの振る舞いを損なうセマンティック汚染に悩まされ、漸進的な学習を妨げている。
そこで本研究では,SPF-Portraitを提案する。SPF-Portraitは,テキストによるポートレートのカスタマイズにおいて,セマンティックな汚染を排除しつつ,セマンティックなセマンティクスを純粋に理解するための先駆的な取り組みである。
筆者らはSPF-Portraitにおいて,従来の微調整パスの参照としてオリジナルのモデルを導入したデュアルパスパイプラインを提案する。
対照的な学習を通じて、ターゲット属性への適応を確実にし、他の非関連属性を元のポートレートと意図的に整合させる。
対象セマンティクスの正確な応答領域を表すセマンティクス・アウェア・ファイン・コントロール・マップを導入し,コントラストパス間のアライメントプロセスを空間的にガイドする。
このアライメントプロセスは、元のモデルの性能を効果的に保存するだけでなく、過調整を避ける。
さらに, 直接的相互監視に固有の表現の相違を緩和しつつ, 対象属性の性能を向上する新しい応答強化機構を提案する。
大規模な実験により、SPF-ポートレートは最先端の性能を達成することが示された。
関連論文リスト
- TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization [31.960807999301196]
本稿では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。
具体的には、DreamMatcherはターゲットの値をセマンティックマッチングで整列された参照値に置き換えるが、構造パスは変わらない。
また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
論文 参考訳(メタデータ) (2024-02-15T09:21:16Z) - SPColor: Semantic Prior Guided Exemplar-based Image Colorization [14.191819767895867]
本研究では,SPColorを提案する。
SPColorはまず、参照画像とターゲット画像のピクセルをセマンティック先行のガイダンスの下で複数の擬似クラスに分類する。
我々のモデルは、最近の最先端の手法を定量的にも質的にも、公開データセット上でも優れています。
論文 参考訳(メタデータ) (2023-04-13T04:21:45Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Learning Pixel-Adaptive Weights for Portrait Photo Retouching [1.9843222704723809]
ポートレート写真リタッチ(Portrait photo retouching)は、人間の領域の優先度とグループレベルの一貫性を強調する写真リタッチタスクである。
本稿では,局所的なコンテキストキューをモデル化し,手直し品質を明示的に改善する。
PPR10Kデータセットの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T07:23:42Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic
Segmentation [97.74059510314554]
セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。
既存の手法では、大きなドメインギャップに悩まされながら、ドメイン不変の特徴を学習しようとする。
本稿では,新しいDual Soft-Paste (DSP)法を提案する。
論文 参考訳(メタデータ) (2021-07-20T16:22:40Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Learning Semantic Person Image Generation by Region-Adaptive
Normalization [81.52223606284443]
ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。
第1段階では,対象意味解析マップを予測し,ポーズ転送の難しさを解消する。
第2段階では,領域適応正規化を組み込んだ新たな人物画像生成手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T06:51:37Z) - Consistency Regularization with High-dimensional Non-adversarial
Source-guided Perturbation for Unsupervised Domain Adaptation in Segmentation [15.428323201750144]
BiSIDAは、未ラベルのターゲットデータセットからの情報を効率的に活用するために、一貫性の正則化を採用している。
BiSIDAは、一般的に使われている2つの合成-実領域適応ベンチマーク上で、新しい最先端を実現する。
論文 参考訳(メタデータ) (2020-09-18T03:26:44Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。