論文の概要: Equilibrated Diffusion: Frequency-aware Textual Embedding for Equilibrated Image Customization
- arxiv url: http://arxiv.org/abs/2606.02129v1
- Date: Mon, 01 Jun 2026 11:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.974787
- Title: Equilibrated Diffusion: Frequency-aware Textual Embedding for Equilibrated Image Customization
- Title(参考訳): 平衡拡散: 平衡画像カスタマイズのための周波数対応テクスチャ埋め込み
- Authors: Liyuan Ma, Xueji Fang, Guo-Jun Qi,
- Abstract要約: 画像カスタマイズは、基準概念画像から対象対象を学習し、テキストプロンプト毎に条件付き画像を生成する。
一般的な方法は、様々な概念属性を統一された潜伏埋め込みにまとめるために微調整を採用する。
本稿では、バランスの取れたカスタマイズと一貫したテキスト-視覚的マッチングのために、絡み合った概念機能を切り離す周波数駆動型手法である平衡拡散を提案する。
- 参考スコア(独自算出の注目度): 31.67012394425792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image customization learns target subjects from reference concept images and generates conditioned images per text prompts, mainly modifying styles or backgrounds. Prevailing methods adopt fine-tuning to pack diverse concept attributes into a unified latent embedding, yet entangled attributes hinder elimination of irrelevant disturbances from style and background. To address this issue, we propose Equilibrated Diffusion, a frequency-driven approach that disentangles tangled concept features for balanced customization and consistent text-visual matching. Unlike conventional methods learning full concepts with shared embeddings and unified tuning, our work utilizes the inherent link between image frequency components and semantics: low frequencies represent subject content and high frequencies correspond to styles. We decompose concepts in frequency space and optimize each embedding independently. This separate optimization enables the denoiser to capture style detached from subject identity and generalize better to unseen stylistic prompts. Merging multi-frequency embeddings preserves the model's original spatial customization ability. We further deploy mask-guided diffusion to restrict irrelevant background changes and boost text alignment. Residual Reference Attention (RRA) is inserted into spatial attention to retain subject structure and identity consistency. Experiments prove Equilibrated Diffusion exceeds mainstream baselines on subject fidelity and text adherence, verifying our method's superiority.
- Abstract(参考訳): 画像のカスタマイズは、参照概念イメージから対象を学習し、主にスタイルや背景を変更するテキストプロンプト毎に条件付き画像を生成する。
一般的な方法は、様々な概念属性を統一された潜伏埋め込みにまとめるために微調整を採用するが、絡み合った属性は、スタイルや背景から無関係な障害を取り除くのを妨げている。
この問題に対処するために、バランスの取れたカスタマイズと一貫したテキスト・ビジュアルマッチングのために、絡み合った概念機能を歪ませる周波数駆動型アプローチであるEquilibrated Diffusionを提案する。
共有埋め込みと統合チューニングによる完全概念学習とは異なり、我々の研究は、画像の周波数成分と意味論(低頻度は主観的内容を表し、高頻度はスタイルに対応する)の固有のリンクを利用する。
周波数空間の概念を分解し、各埋め込みを独立に最適化する。
この分離された最適化により、デノイザは主題のアイデンティティから切り離されたスタイルをキャプチャし、目に見えないスタイルのプロンプトをより一般化することができる。
多周波埋め込みの融合は、モデルのもともとの空間的カスタマイズ能力を保っている。
さらに,無関係な背景変化を制限し,テキストアライメントを高めるためにマスク誘導拡散を展開させる。
Residual Reference Attention (RRA) は、被写体の構造とアイデンティティの整合性を維持するために空間的注意に挿入される。
Equilibrated Diffusion は主観的忠実度とテキストの忠実度に基づき,本手法の優位性を検証した。
関連論文リスト
- UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation [65.53694602893042]
VLMエンコーディングの前にVTとVAE機能を融合した統合ビジュアルコンディショニングフレームワークを提案する。
2つのマルチ参照生成ベンチマークの実験により、UniCustomは主題の一貫性、命令従順、構成の忠実さを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T13:10:05Z) - Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-05-27T17:54:24Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。