論文の概要: SpotDiff: Spotting and Disentangling Interference in Feature Space for Subject-Preserving Image Generation
- arxiv url: http://arxiv.org/abs/2510.07340v1
- Date: Tue, 07 Oct 2025 18:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.624432
- Title: SpotDiff: Spotting and Disentangling Interference in Feature Space for Subject-Preserving Image Generation
- Title(参考訳): SpotDiff:被写体保存画像生成のための特徴空間におけるスポッティングとアンタングル干渉
- Authors: Yongzhi Li, Saining Zhang, Yibing Chen, Boying Li, Yanxin Zhang, Xiaoyu Du,
- Abstract要約: SpotDiff(スポットディフ)は、新しい学習ベースの手法である。
原則的トレーニングを実現するために、一貫したポーズとバックグラウンドのバリエーションを備えたキュレートデータセットであるSpotDiff10kを紹介した。
実験により、SpotDiffは従来の方法よりも堅牢な被写体保存と制御可能な編集を実現し、わずか10kのトレーニングサンプルで競合性能を達成した。
- 参考スコア(独自算出の注目度): 6.116573441311417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized image generation aims to faithfully preserve a reference subject's identity while adapting to diverse text prompts. Existing optimization-based methods ensure high fidelity but are computationally expensive, while learning-based approaches offer efficiency at the cost of entangled representations influenced by nuisance factors. We introduce SpotDiff, a novel learning-based method that extracts subject-specific features by spotting and disentangling interference. Leveraging a pre-trained CLIP image encoder and specialized expert networks for pose and background, SpotDiff isolates subject identity through orthogonality constraints in the feature space. To enable principled training, we introduce SpotDiff10k, a curated dataset with consistent pose and background variations. Experiments demonstrate that SpotDiff achieves more robust subject preservation and controllable editing than prior methods, while attaining competitive performance with only 10k training samples.
- Abstract(参考訳): パーソナライズされた画像生成は、多様なテキストプロンプトに適応しながら、参照対象者のアイデンティティを忠実に保存することを目的としている。
既存の最適化に基づく手法は高い忠実性を保証するが、計算コストは高いが、学習に基づくアプローチは、ニュアンス要因に影響された絡み合った表現のコストで効率性を提供する。
スポットディフ(SpotDiff)は,スポッティングとアンタングリング干渉による主観的特徴を抽出する新しい学習手法である。
トレーニング済みのCLIPイメージエンコーダと、ポーズとバックグラウンドのための専門的な専門家ネットワークを活用することで、SpotDiffは、機能空間の直交制約を通じて、対象のアイデンティティを分離する。
原則的トレーニングを実現するために、一貫したポーズとバックグラウンドのバリエーションを備えたキュレートデータセットであるSpotDiff10kを紹介した。
実験により、SpotDiffは従来の方法よりも堅牢な被写体保存と制御可能な編集を実現し、わずか10kのトレーニングサンプルで競合性能を達成した。
関連論文リスト
- FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus [10.615833390806486]
多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
論文 参考訳(メタデータ) (2025-09-01T07:06:36Z) - HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。
視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。
HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文 参考訳(メタデータ) (2025-07-28T15:09:52Z) - Pose-Transformation and Radial Distance Clustering for Unsupervised Person Re-identification [5.522856885199346]
人物再識別(re-ID)は、重複しないカメラ間での同一性マッチングの問題に対処することを目的としている。
監視されたアプローチでは、取得が困難になり、トレーニング対象のデータセットに対して本質的にバイアスがかかる可能性のあるID情報が必要となる。
本稿では,真のラベルの知識をゼロにすることで,学習した特徴の識別能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T20:55:30Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Causality-inspired Discriminative Feature Learning in Triple Domains for Gait Recognition [36.55724380184354]
CLTDは、三重ドメイン、すなわち空間、時間、スペクトルにおける共同創設者の影響を排除するために設計された識別的特徴学習モジュールである。
具体的には、Cross Pixel-wise Attention Generator (CPAG)を用いて、空間的および時間的領域における実物的特徴と反物的特徴の注意分布を生成する。
次に、FPH(Fourier Projection Head)を導入し、空間的特徴をスペクトル空間に投影し、計算コストを低減しつつ重要な情報を保存する。
論文 参考訳(メタデータ) (2024-07-17T12:16:44Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。