論文の概要: Inject Where It Matters: Training-Free Spatially-Adaptive Identity Preservation for Text-to-Image Personalization
- arxiv url: http://arxiv.org/abs/2602.13994v1
- Date: Sun, 15 Feb 2026 05:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.593909
- Title: Inject Where It Matters: Training-Free Spatially-Adaptive Identity Preservation for Text-to-Image Personalization
- Title(参考訳): テキスト・ツー・イメージのパーソナライズのための学習自由空間適応型アイデンティティ保存
- Authors: Guandong Li, Mengxia Ye,
- Abstract要約: 個人化されたテキスト・画像生成のためのトレーニング不要な空間適応型ID変調フレームワークであるSpatialIDを提案する。
IBenchの実験では、SpatialIDはテキストのアテンデンス、視覚的一貫性、画質において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized text-to-image generation aims to integrate specific identities into arbitrary contexts. However, existing tuning-free methods typically employ Spatially Uniform Visual Injection, causing identity features to contaminate non-facial regions (e.g., backgrounds and lighting) and degrading text adherence. To address this without expensive fine-tuning, we propose SpatialID, a training-free spatially-adaptive identity modulation framework. SpatialID fundamentally decouples identity injection into face-relevant and context-free regions using a Spatial Mask Extractor derived from cross-attention responses. Furthermore, we introduce a Temporal-Spatial Scheduling strategy that dynamically adjusts spatial constraints - transitioning from Gaussian priors to attention-based masks and adaptive relaxation - to align with the diffusion generation dynamics. Extensive experiments on IBench demonstrate that SpatialID achieves state-of-the-art performance in text adherence (CLIP-T: 0.281), visual consistency (CLIP-I: 0.827), and image quality (IQ: 0.523), significantly eliminating background contamination while maintaining robust identity preservation.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成は、特定のアイデンティティを任意のコンテキストに統合することを目的としている。
しかし、既存のチューニング不要な手法は通常、空間的に均一なビジュアルインジェクションを使用し、顔以外の領域(背景や照明など)を汚染し、テキストの付着性を低下させる。
そこで本稿では,トレーニング不要な空間適応型ID変調フレームワークであるSpatialIDを提案する。
クロスアテンション応答から導かれる空間マスクエクストラクタを用いて、SpatialIDはアイデンティティ注入を顔関連領域と文脈不要領域に根本的に分離する。
さらに,空間制約を動的に調整する時間空間スケジューリング手法を導入する。
IBenchでの大規模な実験により、SpatialIDはテキストアテンデンス(CLIP-T:0.281)、視覚的一貫性(CLIP-I:0.827)、画像品質(IQ:0.523)において最先端のパフォーマンスを実現し、堅牢なアイデンティティ保存を維持しながら背景汚染を著しく排除することを示した。
関連論文リスト
- FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation [10.474377498273205]
意図認識変調を利用した学習自由フレームワークFlexIDを提案する。
本稿では,これらのストリームの重みを動的に変調するコンテキスト認識適応ゲーティング(CAG)機構を提案する。
IBenchの実験では、FlexIDがアイデンティティの一貫性とテキストの一貫性のバランスを達成している。
論文 参考訳(メタデータ) (2026-02-07T13:59:54Z) - SIDeR: Semantic Identity Decoupling for Unrestricted Face Privacy [53.75084833636302]
本稿では,非制限顔プライバシー保護のためのセマンティックデカップリング駆動フレームワークSIDeRを提案する。
SIDeRは、顔画像をマシン認識可能な識別特徴ベクトルと視覚的に知覚可能なセマンティックな外観成分に分解する。
認証されたアクセスのために、SIDeRは正しいパスワードが提供されるときに元の形式に復元できる。
論文 参考訳(メタデータ) (2026-02-04T19:30:48Z) - BeyondFacial: Identity-Preserving Personalized Generation Beyond Facial Close-ups [22.017690133402912]
アイデンティティ保存型パーソナライズドジェネレーション(I)は、高度な映画制作と芸術的創造力を持っているが、既存のアプローチは顔領域を過度に強調している。
これらの手法は、複雑なテキストプロンプトの下での視覚的ナラティビティの弱さと意味的一貫性の弱さに悩まされる。
本稿では,顔のクローズアップの制約を断ち切るI手法を提案する。
論文 参考訳(メタデータ) (2025-11-15T01:56:14Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - Robust ID-Specific Face Restoration via Alignment Learning [14.7430941613282]
本稿では,拡散モデルに基づく新しい顔復元フレームワークであるRobust ID-Specific Face Restoration (RIDFR)を提案する。
RIDFRにはアライメント・ラーニング(Alignment Learning)が組み込まれており、複数の参照からの復元結果を同一のアイデンティティと整合させて、ID非関連顔のセマンティクスの干渉を抑制する。
実験により、我々のフレームワークは最先端の手法よりも優れており、高品質なID固有の結果を高いアイデンティティの忠実度で再現し、強靭性を示す。
論文 参考訳(メタデータ) (2025-07-15T03:16:12Z) - LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter [52.93785843453579]
低品質(LQ)画像からのブラインド顔復元は、高忠実度画像再構成と顔認証の保存を必要とする課題である。
LAFRは,LQ画像の潜時分布とHQ画像の潜時分布を一致させる,新しいコードブックベースの潜時空間アダプタである。
FFHQデータセットのわずか0.9%での拡散の軽量な微調整は、最先端の手法に匹敵する結果を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2025-05-29T14:11:16Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。