論文の概要: Parallel Rescaling: Rebalancing Consistency Guidance for Personalized Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.00607v1
- Date: Sat, 31 May 2025 15:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.28852
- Title: Parallel Rescaling: Rebalancing Consistency Guidance for Personalized Diffusion Models
- Title(参考訳): 並列再スケーリング:パーソナライズされた拡散モデルのための一貫性誘導
- Authors: JungWoo Chae, Jiyoon Kim, Sangheum Hwang,
- Abstract要約: パーソナライズされた拡散モデルのための並列再スケーリング手法を提案する。
従来のパーソナライズ手法とは異なり、我々の手法では追加のトレーニングデータや高価なアノテーションを必要としない。
- 参考スコア(独自算出の注目度): 3.1964044595140217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalizing diffusion models to specific users or concepts remains challenging, particularly when only a few reference images are available. Existing methods such as DreamBooth and Textual Inversion often overfit to limited data, causing misalignment between generated images and text prompts when attempting to balance identity fidelity with prompt adherence. While Direct Consistency Optimization (DCO) with its consistency-guided sampling partially alleviates this issue, it still struggles with complex or stylized prompts. In this paper, we propose a parallel rescaling technique for personalized diffusion models. Our approach explicitly decomposes the consistency guidance signal into parallel and orthogonal components relative to classifier free guidance (CFG). By rescaling the parallel component, we minimize disruptive interference with CFG while preserving the subject's identity. Unlike prior personalization methods, our technique does not require additional training data or expensive annotations. Extensive experiments show improved prompt alignment and visual fidelity compared to baseline methods, even on challenging stylized prompts. These findings highlight the potential of parallel rescaled guidance to yield more stable and accurate personalization for diverse user inputs.
- Abstract(参考訳): 特定のユーザやコンセプトに対して拡散モデルをパーソナライズすることは、特に参照イメージがわずかである場合、依然として困難である。
DreamBooth や Textual Inversion のような既存の手法は、しばしば制限されたデータに過度に適合し、生成した画像とテキストプロンプトのミスアライメントを引き起こす。
直接整合性最適化(DCO)と整合性誘導サンプリングはこの問題を部分的に緩和するが、複雑なプロンプトやスタイリングされたプロンプトに苦慮している。
本稿では,パーソナライズされた拡散モデルのための並列再スケーリング手法を提案する。
本手法は, 整合性誘導信号を, 分類器フリーガイダンス(CFG)と比較して, 並列成分と直交成分に明示的に分解する。
並列成分を再スケーリングすることにより、被験者の身元を保ちながらCFGに対する破壊的干渉を最小限に抑える。
従来のパーソナライズ手法とは異なり、我々の手法では追加のトレーニングデータや高価なアノテーションを必要としない。
広汎な実験では、プロンプトアライメントと視覚的忠実度がベースライン法と比較して改善された。
これらの知見は、多様なユーザ入力に対して、より安定的で正確なパーソナライズを実現するために、並列再スケールガイダンスの可能性を示している。
関連論文リスト
- Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples [23.92307798902212]
本稿では,DPO学習可能な視覚的一貫したサンプルを構築する手法であるD-Fusionを紹介する。
一方、マスクガイドによる自己注意融合を行うことで、得られた画像は正常に整合するだけでなく、与えられた不整合画像と視覚的に整合する。
一方、D-FusionはDPO訓練に欠かせない画像のノイズの軌跡を保持することができる。
論文 参考訳(メタデータ) (2025-05-28T06:03:41Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling [14.621456944266802]
推論中に生成した画像と人間の嗜好を調整するためのトレーニング不要アライメント手法DyMOを提案する。
テキスト認識された人間の嗜好スコアとは別に、拡散の初期における意味的アライメントを強化する意味的アライメントの目的を導入する。
種々の事前学習拡散モデルとメトリクスを用いた実験は,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-12-01T10:32:47Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。