論文の概要: SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
- arxiv url: http://arxiv.org/abs/2504.00396v2
- Date: Fri, 04 Apr 2025 07:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:46:02.723352
- Title: SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning
- Title(参考訳): SPF-Portrait: セマンティック汚染のないファインチューニングによる純ポートレートのカスタマイズに向けて
- Authors: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng,
- Abstract要約: SPF-Portraitは、テキスト駆動のポートレートカスタマイズにおいてセマンティックな汚染を排除しつつ、カスタマイズされたセマンティクスを純粋に理解する先駆的な研究である。
筆者らはSPF-Portraitにおいて,従来の微調整パスの参照としてオリジナルのモデルを導入したデュアルパスパイプラインを提案する。
本稿では,ターゲットセマンティクスの応答領域を正確に表現するセマンティック・アウェア・ファイン・コントロール・マップを提案する。
- 参考スコア(独自算出の注目度): 33.709835660394305
- License:
- Abstract: Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait dataset is the mainstream method for text-driven customization of portrait attributes. Due to Semantic Pollution during fine-tuning, existing methods struggle to maintain the original model's behavior and achieve incremental learning while customizing target attributes. To address this issue, we propose SPF-Portrait, a pioneering work to purely understand customized semantics while eliminating semantic pollution in text-driven portrait customization. In our SPF-Portrait, we propose a dual-path pipeline that introduces the original model as a reference for the conventional fine-tuning path. Through contrastive learning, we ensure adaptation to target attributes and purposefully align other unrelated attributes with the original portrait. We introduce a novel Semantic-Aware Fine Control Map, which represents the precise response regions of the target semantics, to spatially guide the alignment process between the contrastive paths. This alignment process not only effectively preserves the performance of the original model but also avoids over-alignment. Furthermore, we propose a novel response enhancement mechanism to reinforce the performance of target attributes, while mitigating representation discrepancy inherent in direct cross-modal supervision. Extensive experiments demonstrate that SPF-Portrait achieves state-of-the-art performance. Project webpage: https://spf-portrait.github.io/SPF-Portrait/
- Abstract(参考訳): ポートレート属性をテキスト駆動でカスタマイズするための主流手法として,事前訓練されたポートレートデータセット上のテキスト・トゥ・イメージ(T2I)モデルを微調整する。
微調整中のセマンティック汚染のため、既存の手法は、ターゲット属性をカスタマイズしながら、元のモデルの動作を維持し、漸進的な学習を達成するのに苦労する。
そこで本研究では,SPF-Portraitを提案する。SPF-Portraitは,テキストによるポートレートのカスタマイズにおいて,セマンティックな汚染を排除しつつ,セマンティックなセマンティクスを純粋に理解するための先駆的な取り組みである。
筆者らはSPF-Portraitにおいて,従来の微調整パスの参照としてオリジナルのモデルを導入したデュアルパスパイプラインを提案する。
対照的な学習を通じて、ターゲット属性への適応を確実にし、他の非関連属性を元のポートレートと意図的に整合させる。
対象セマンティクスの正確な応答領域を表すセマンティクス・アウェア・ファイン・コントロール・マップを導入し,コントラストパス間のアライメントプロセスを空間的にガイドする。
このアライメントプロセスは、元のモデルの性能を効果的に保存するだけでなく、過調整を避ける。
さらに, 直接的相互監視に固有の表現の相違を緩和しつつ, 対象属性の性能を向上する新しい応答強化機構を提案する。
大規模な実験により、SPF-ポートレートは最先端の性能を達成することが示された。
プロジェクトWebページ: https://spf-portrait.github.io/SPF-Portrait/
関連論文リスト
- Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。
本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文 参考訳(メタデータ) (2024-12-20T11:15:31Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization [31.960807999301196]
本稿では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。
具体的には、DreamMatcherはターゲットの値をセマンティックマッチングで整列された参照値に置き換えるが、構造パスは変わらない。
また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
論文 参考訳(メタデータ) (2024-02-15T09:21:16Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Consistency Regularization with High-dimensional Non-adversarial
Source-guided Perturbation for Unsupervised Domain Adaptation in Segmentation [15.428323201750144]
BiSIDAは、未ラベルのターゲットデータセットからの情報を効率的に活用するために、一貫性の正則化を採用している。
BiSIDAは、一般的に使われている2つの合成-実領域適応ベンチマーク上で、新しい最先端を実現する。
論文 参考訳(メタデータ) (2020-09-18T03:26:44Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。