論文の概要: Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.22245v1
- Date: Thu, 27 Nov 2025 09:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.473929
- Title: Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるロバストパーソナライゼーションのための意味的アンコリング
- Authors: Seoyun Yang, Gihoon Kim, Taesup Kim,
- Abstract要約: テキスト・ツー・イメージ拡散モデルでは,限られた数の参照画像から新しい視覚概念を学習する。
本稿では,新しい概念を対応する分布に基礎付けることで適応を導くセマンティックアンカーを提案する。
このアンカーリングにより、モデルは新しい概念を安定かつ制御された方法で適応させ、事前訓練された分布をパーソナライズされた領域へと拡張する。
- 参考スコア(独自算出の注目度): 9.94436942959918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved remarkable progress in generating diverse and realistic images from textual descriptions. However, they still struggle with personalization, which requires adapting a pretrained model to depict user-specific subjects from only a few reference images. The key challenge lies in learning a new visual concept from a limited number of reference images while preserving the pretrained semantic prior that maintains text-image alignment. When the model focuses on subject fidelity, it tends to overfit the limited reference images and fails to leverage the pretrained distribution. Conversely, emphasizing prior preservation maintains semantic consistency but prevents the model from learning new personalized attributes. Building on these observations, we propose the personalization process through a semantic anchoring that guides adaptation by grounding new concepts in their corresponding distributions. We therefore reformulate personalization as the process of learning a rare concept guided by its frequent counterpart through semantic anchoring. This anchoring encourages the model to adapt new concepts in a stable and controlled manner, expanding the pretrained distribution toward personalized regions while preserving its semantic structure. As a result, the proposed method achieves stable adaptation and consistent improvements in both subject fidelity and text-image alignment compared to baseline methods. Extensive experiments and ablation studies further demonstrate the robustness and effectiveness of the proposed anchoring strategy.
- Abstract(参考訳): テキストから画像への拡散モデルは、テキスト記述から多彩でリアルな画像を生成する際、顕著な進歩を遂げた。
しかし、彼らはまだパーソナライズに苦慮しており、少数の参照画像からユーザ固有の対象を描写するために、事前訓練されたモデルを適用する必要がある。
重要な課題は、限られた数の参照イメージから新しい視覚概念を学ぶと同時に、テキストイメージのアライメントを維持する事前トレーニングされたセマンティクスを保存することである。
モデルが被写体忠実度に焦点を合わせると、限られた参照画像に過度に適合する傾向にあり、事前訓練された分布を利用することができない。
逆に、事前保存を強調することは意味的一貫性を維持するが、モデルが新しいパーソナライズされた属性を学ぶのを防ぐ。
これらの観察に基づいて,新たな概念を対応する分布に基礎付けることで適応を導くセマンティックアンカリングによるパーソナライズプロセスを提案する。
したがって、パーソナライゼーションは、セマンティックアンカリングを通じて、その頻繁な相違によって導かれる稀な概念を学ぶ過程として再考される。
このアンカーリングにより、モデルが安定かつ制御された方法で新しい概念を適応させ、その意味構造を保ちながら、パーソナライズされた領域への事前訓練された分布を拡大する。
その結果,提案手法はベースライン法と比較して,主観的忠実度とテキスト画像のアライメントの両面において,安定した適応と一貫した改善を実現している。
大規模な実験とアブレーション研究は、提案されたアンカー戦略の堅牢性と有効性をさらに証明している。
関連論文リスト
- GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift [5.608240462042483]
テキスト・ツー・イメージ拡散モデルを用いたパーソナライズには、事前訓練されたモデルを、少数の画像例だけで新規な被験者に適応させる必要がある。
フォーッティングは意図しない分布のドリフトを意味し、モデルの出力分布は、元の事前訓練されたモデルから逸脱する。
本稿では, 事前学習分布からの偏差を明示的に制限するリプシッツ境界定式化に基づく新たな学習目標を提案する。
論文 参考訳(メタデータ) (2025-05-26T05:03:59Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。