論文の概要: Steering Guidance for Personalized Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.00319v1
- Date: Fri, 01 Aug 2025 05:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.739806
- Title: Steering Guidance for Personalized Text-to-Image Diffusion Models
- Title(参考訳): 個人化テキスト・画像拡散モデルのためのステアリングガイダンス
- Authors: Sunghyun Park, Seokeon Choi, Hyoungwoo Park, Sungrack Yun,
- Abstract要約: 既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。
我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。
本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
- 参考スコア(独自算出の注目度): 19.550718192994353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalizing text-to-image diffusion models is crucial for adapting the pre-trained models to specific target concepts, enabling diverse image generation. However, fine-tuning with few images introduces an inherent trade-off between aligning with the target distribution (e.g., subject fidelity) and preserving the broad knowledge of the original model (e.g., text editability). Existing sampling guidance methods, such as classifier-free guidance (CFG) and autoguidance (AG), fail to effectively guide the output toward well-balanced space: CFG restricts the adaptation to the target distribution, while AG compromises text alignment. To address these limitations, we propose personalization guidance, a simple yet effective method leveraging an unlearned weak model conditioned on a null text prompt. Moreover, our method dynamically controls the extent of unlearning in a weak model through weight interpolation between pre-trained and fine-tuned models during inference. Unlike existing guidance methods, which depend solely on guidance scales, our method explicitly steers the outputs toward a balanced latent space without additional computational overhead. Experimental results demonstrate that our proposed guidance can improve text alignment and target distribution fidelity, integrating seamlessly with various fine-tuning strategies.
- Abstract(参考訳): テキストから画像への拡散モデルをパーソナライズすることは、訓練済みのモデルを特定のターゲット概念に適応させ、多様な画像生成を可能にするために不可欠である。
しかし、画像が少ない微調整では、対象の分布(例えば、被写体忠実度)と元のモデルの広い知識(例えば、テキスト編集性)とのトレードオフが生じる。
分類器フリーガイダンス(CFG)や自己ガイダンス(AG)といった既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ効果的に誘導することができない。
これらの制約に対処するために、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純かつ効果的なパーソナライズガイダンスを提案する。
さらに,提案手法は,事前学習モデルと微調整モデルとの重み補間により,弱いモデルにおける未学習の度合いを動的に制御する。
ガイダンス尺度のみに依存する既存のガイダンス手法とは異なり、この手法は計算オーバーヘッドを伴わずに、バランスの取れた潜在空間に向けて出力を明示的に操縦する。
実験の結果,提案手法はテキストアライメントと目標分布の忠実度を向上し,様々な微調整戦略とシームレスに統合できることが示唆された。
関連論文リスト
- How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift [5.608240462042483]
テキスト・ツー・イメージ拡散モデルを用いたパーソナライズには、事前訓練されたモデルを、少数の画像例だけで新規な被験者に適応させる必要がある。
フォーッティングは意図しない分布のドリフトを意味し、モデルの出力分布は、元の事前訓練されたモデルから逸脱する。
本稿では, 事前学習分布からの偏差を明示的に制限するリプシッツ境界定式化に基づく新たな学習目標を提案する。
論文 参考訳(メタデータ) (2025-05-26T05:03:59Z) - Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。
本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文 参考訳(メタデータ) (2024-12-20T11:15:31Z) - DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling [14.621456944266802]
推論中に生成した画像と人間の嗜好を調整するためのトレーニング不要アライメント手法DyMOを提案する。
テキスト認識された人間の嗜好スコアとは別に、拡散の初期における意味的アライメントを強化する意味的アライメントの目的を導入する。
種々の事前学習拡散モデルとメトリクスを用いた実験は,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-12-01T10:32:47Z) - Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment [31.402736873762418]
言語モデルアライメント手法により,高機能な誘導不要なAR視覚生成を容易にするためのテキストコンディションコントラストアライメント(CCA)を提案する。
実験の結果,CCAは1つのエポック微調整で全試験モデルの誘導不要性能を著しく向上させることができることがわかった。
このことは,言語的アライメントと視覚的アライメントの強い関係を実験的に確認する。
論文 参考訳(メタデータ) (2024-10-12T03:31:25Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Few Shot Generative Model Adaption via Relaxed Spatial Structural
Alignment [130.84010267004803]
限られたデータでGAN(Generative Adversarial Network)を訓練することは難しい課題である。
実現可能な解決策は、大規模なソースドメインで十分に訓練されたGANから始め、ターゲットドメインにいくつかのサンプルで適応することである。
本研究では,適応時の対象生成モデルのキャリブレーションを行うための緩和された空間構造アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T14:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。