Fugu-MT 論文翻訳(概要): SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning

論文の概要: SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning

arxiv url: http://arxiv.org/abs/2504.00396v3
Date: Tue, 27 May 2025 13:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:19.31017
Title: SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning
Title（参考訳）: SPF-Portrait: セマンティック汚染のないファインチューニングによる純テキスト・ツー・ポートレートのカスタマイズに向けて
Authors: Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng,
Abstract要約: SPF-Portraitは、カスタマイズされたターゲットセマンティクスを純粋に理解し、オリジナルのモデルの破壊を最小限にする先駆的な作業である。筆者らはSPF-Portraitにおいて,行動アライメント参照としてオリジナルのモデルを導入したデュアルパスコントラスト学習パイプラインを設計した。異なる領域間の行動アライメントと、ターゲットセマンティクスの応答性を適応的にバランスさせる。
参考スコア（独自算出の注目度）: 33.709835660394305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning a pre-trained Text-to-Image (T2I) model on a tailored portrait dataset is the mainstream method for text-to-portrait customization. However, existing methods often severely impact the original model's behavior (e.g., changes in ID, layout, etc.) while customizing portrait attributes. To address this issue, we propose SPF-Portrait, a pioneering work to purely understand customized target semantics and minimize disruption to the original model. In our SPF-Portrait, we design a dual-path contrastive learning pipeline, which introduces the original model as a behavioral alignment reference for the conventional fine-tuning path. During the contrastive learning, we propose a novel Semantic-Aware Fine Control Map that indicates the intensity of response regions of the target semantics, to spatially guide the alignment process between the contrastive paths. It adaptively balances the behavioral alignment across different regions and the responsiveness of the target semantics. Furthermore, we propose a novel response enhancement mechanism to reinforce the presentation of target semantics, while mitigating representation discrepancy inherent in direct cross-modal supervision. Through the above strategies, we achieve incremental learning of customized target semantics for pure text-to-portrait customization. Extensive experiments show that SPF-Portrait achieves state-of-the-art performance. Project page: https://spf-portrait.github.io/SPF-Portrait/
Abstract（参考訳）: カスタマイズされたポートレートデータセット上で、事前訓練されたテキスト・ツー・イメージ(T2I)モデルを微調整することは、テキスト・ツー・ポートレートのカスタマイズの主流の方法である。しかし、既存のメソッドは、ポートレート属性をカスタマイズしながら、元のモデルの振る舞い(例えば、ID、レイアウトの変更など)に深刻な影響を与えます。この問題に対処するために,SPF-Portraitを提案する。SPF-Portraitは,カスタマイズされたターゲットセマンティクスを純粋に理解し,オリジナルモデルの破壊を最小限に抑えるための先駆的な作業である。筆者らはSPF-Portraitにおいて、従来の微調整パスの行動アライメント基準としてオリジナルのモデルを導入したデュアルパスコントラスト学習パイプラインを設計した。コントラスト学習において,対象セマンティクスの応答領域の強度を示すセマンティック・アウェア・ファイン・コントロール・マップを提案し,コントラストパス間のアライメントプロセスを空間的に導く。異なる領域間の行動アライメントと、ターゲットセマンティクスの応答性を適応的にバランスさせる。さらに, 直接的相互監視に固有の表現の相違を緩和しつつ, 対象意味論の提示を強化する新しい応答強化機構を提案する。以上の戦略を通じて、純粋なテキストから画像へのカスタマイズのために、カスタマイズされたターゲットセマンティクスを段階的に学習する。大規模な実験により、SPF-ポートレートは最先端の性能を達成することが示された。プロジェクトページ:https://spf-portrait.github.io/SPF-Portrait/

関連論文リスト

Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models [9.94436942959918]
テキスト・ツー・イメージ拡散モデルでは,限られた数の参照画像から新しい視覚概念を学習する。本稿では,新しい概念を対応する分布に基礎付けることで適応を導くセマンティックアンカーを提案する。このアンカーリングにより、モデルは新しい概念を安定かつ制御された方法で適応させ、事前訓練された分布をパーソナライズされた領域へと拡張する。
論文参考訳（メタデータ） (2025-11-27T09:16:33Z)
Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。 NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文参考訳（メタデータ） (2025-09-01T11:59:03Z)
Decouple before Align: Visual Disentanglement Enhances Prompt Tuning [85.91474962071452]
プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。本稿では,従来見過ごされていた情報非対称性の問題について述べる。本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
論文参考訳（メタデータ） (2025-08-01T07:46:00Z)
IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。 IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文参考訳（メタデータ） (2025-03-02T15:19:37Z)
Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文参考訳（メタデータ） (2024-12-20T11:15:31Z)
TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。 TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-07T08:52:21Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization [31.960807999301196]
本稿では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。具体的には、DreamMatcherはターゲットの値をセマンティックマッチングで整列された参照値に置き換えるが、構造パスは変わらない。また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。
論文参考訳（メタデータ） (2024-02-15T09:21:16Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
SPColor: Semantic Prior Guided Exemplar-based Image Colorization [14.191819767895867]
本研究では,SPColorを提案する。 SPColorはまず、参照画像とターゲット画像のピクセルをセマンティック先行のガイダンスの下で複数の擬似クラスに分類する。我々のモデルは、最近の最先端の手法を定量的にも質的にも、公開データセット上でも優れています。
論文参考訳（メタデータ） (2023-04-13T04:21:45Z)
Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文参考訳（メタデータ） (2023-02-05T14:30:22Z)
Diffusion-based Image Translation using Disentangled Style and Content Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。逆拡散中、画像の原内容を維持することはしばしば困難である。本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T06:44:37Z)
Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文参考訳（メタデータ） (2022-07-12T09:49:21Z)
Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文参考訳（メタデータ） (2022-04-01T13:55:44Z)
Learning Pixel-Adaptive Weights for Portrait Photo Retouching [1.9843222704723809]
ポートレート写真リタッチ(Portrait photo retouching)は、人間の領域の優先度とグループレベルの一貫性を強調する写真リタッチタスクである。本稿では,局所的なコンテキストキューをモデル化し,手直し品質を明示的に改善する。 PPR10Kデータセットの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2021-12-07T07:23:42Z)
Global and Local Alignment Networks for Unpaired Image-to-Image Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文参考訳（メタデータ） (2021-11-19T18:01:54Z)
DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic Segmentation [97.74059510314554]
セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。既存の手法では、大きなドメインギャップに悩まされながら、ドメイン不変の特徴を学習しようとする。本稿では,新しいDual Soft-Paste (DSP)法を提案する。
論文参考訳（メタデータ） (2021-07-20T16:22:40Z)
Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文参考訳（メタデータ） (2021-05-31T07:07:44Z)
Learning Semantic Person Image Generation by Region-Adaptive Normalization [81.52223606284443]
ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。第1段階では,対象意味解析マップを予測し,ポーズ転送の難しさを解消する。第2段階では,領域適応正規化を組み込んだ新たな人物画像生成手法を提案する。
論文参考訳（メタデータ） (2021-04-14T06:51:37Z)
Consistency Regularization with High-dimensional Non-adversarial Source-guided Perturbation for Unsupervised Domain Adaptation in Segmentation [15.428323201750144]
BiSIDAは、未ラベルのターゲットデータセットからの情報を効率的に活用するために、一貫性の正則化を採用している。 BiSIDAは、一般的に使われている2つの合成-実領域適応ベンチマーク上で、新しい最先端を実現する。
論文参考訳（メタデータ） (2020-09-18T03:26:44Z)
Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文参考訳（メタデータ） (2020-03-31T22:38:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。