論文の概要: Finetuning-Free Personalization of Text to Image Generation via Hypernetworks
- arxiv url: http://arxiv.org/abs/2511.03156v1
- Date: Wed, 05 Nov 2025 03:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.316332
- Title: Finetuning-Free Personalization of Text to Image Generation via Hypernetworks
- Title(参考訳): ハイパーネットによる画像生成のためのテキストの微調整自由パーソナライズ
- Authors: Sagar Shrestha, Gopal Sharma, Luowei Zhou, Suren Kumar,
- Abstract要約: 被写体画像から直接LoRA適応重量を予測するHypernetworksによる微調整不要なパーソナライゼーションを提案する。
提案手法はパーソナライズ性能を向上し,オープンカテゴリパーソナライズのためのスケーラブルで効果的な方向としてのハイパーネットワークの約束を強調する。
- 参考スコア(独自算出の注目度): 15.129799519953139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing text-to-image diffusion models has traditionally relied on subject-specific fine-tuning approaches such as DreamBooth~\cite{ruiz2023dreambooth}, which are computationally expensive and slow at inference. Recent adapter- and encoder-based methods attempt to reduce this overhead but still depend on additional fine-tuning or large backbone models for satisfactory results. In this work, we revisit an orthogonal direction: fine-tuning-free personalization via Hypernetworks that predict LoRA-adapted weights directly from subject images. Prior hypernetwork-based approaches, however, suffer from costly data generation or unstable attempts to mimic base model optimization trajectories. We address these limitations with an end-to-end training objective, stabilized by a simple output regularization, yielding reliable and effective hypernetworks. Our method removes the need for per-subject optimization at test time while preserving both subject fidelity and prompt alignment. To further enhance compositional generalization at inference time, we introduce Hybrid-Model Classifier-Free Guidance (HM-CFG), which combines the compositional strengths of the base diffusion model with the subject fidelity of personalized models during sampling. Extensive experiments on CelebA-HQ, AFHQ-v2, and DreamBench demonstrate that our approach achieves strong personalization performance and highlights the promise of hypernetworks as a scalable and effective direction for open-category personalization.
- Abstract(参考訳): テキストと画像の拡散モデルのパーソナライズは、伝統的にDreamBooth~\cite{ruiz2023dreambooth}のような、計算コストが高く、推論が遅い主題固有の微調整アプローチに依存してきた。
最近のアダプタおよびエンコーダベースの手法は、このオーバーヘッドを減らそうとしているが、良好な結果を得るために追加の微調整や大きなバックボーンモデルに依存している。
本研究では,LoRA適応重みを被写体画像から直接予測するHypernetworksによる微調整不要なパーソナライゼーションについて,直交方向を再検討する。
しかし、従来のハイパーネットワークベースのアプローチは、コストのかかるデータ生成や、ベースモデル最適化の軌道を模倣する不安定な試みに悩まされていた。
これらの制限は、単純な出力正規化によって安定化され、信頼性と効果的なハイパーネットワークが得られる、エンドツーエンドのトレーニング目標で対処する。
本手法では,被検対象の忠実度とアライメントの両面を保ちながら,被検対象ごとの最適化の必要性を除去する。
推定時間における合成一般化をさらに強化するため,ベース拡散モデルの合成強度とサンプリング時のパーソナライズされたモデルの主観的忠実度を組み合わせたハイブリッドモデル分類自由誘導(HM-CFG)を導入する。
CelebA-HQ、AFHQ-v2、DreamBenchの大規模な実験は、我々のアプローチが強力なパーソナライズ性能を実現し、オープンカテゴリパーソナライズのためのスケーラブルで効果的な方向としてのハイパーネットワークの約束を強調していることを示している。
関連論文リスト
- Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Self Distillation via Iterative Constructive Perturbations [0.2748831616311481]
本稿では,循環最適化手法を用いてモデルとその入力データを並列に最適化し,より優れたトレーニングを行う新しいフレームワークを提案する。
モデルのパラメータをデータとデータに交互に変更することにより、本手法は適合性と一般化のギャップを効果的に解決する。
論文 参考訳(メタデータ) (2025-05-20T13:15:27Z) - SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization [19.087540230261684]
従来のテキスト・画像拡散モデルでは、教師付き微調整を用いて事前訓練されたベースモデルを強化するのが一般的である。
我々は,画素レベルの細かな詳細とグローバルな画質の両方を最適化する新しいパラダイムであるSelf-SUpervised Direct preference Optimization (SUDO)を紹介する。
教師付き微調整の効果的な代替として、SUDOはどんなテキスト・画像拡散モデルにもシームレスに適用できる。
論文 参考訳(メタデータ) (2025-04-20T08:18:27Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。