論文の概要: AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment
- arxiv url: http://arxiv.org/abs/2505.21911v1
- Date: Wed, 28 May 2025 02:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.381578
- Title: AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment
- Title(参考訳): AlignGen: 複数モードの事前アライメントによるパーソナライズされた画像生成の強化
- Authors: Yiheng Lin, Shifang Zhao, Ting Liu, Xiaochao Qu, Luoqi Liu, Yao Zhao, Yunchao Wei,
- Abstract要約: 我々は、パーソナライズされた画像生成のためのクロスモーダル優先アライメント機構であるAlignGenを提案する。
AlignGenは、既存のゼロショットメソッドよりも優れており、一般的なテスト時間最適化アプローチを超えています。
- 参考スコア(独自算出の注目度): 74.47138661595584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized image generation aims to integrate user-provided concepts into text-to-image models, enabling the generation of customized content based on a given prompt. Recent zero-shot approaches, particularly those leveraging diffusion transformers, incorporate reference image information through multi-modal attention mechanism. This integration allows the generated output to be influenced by both the textual prior from the prompt and the visual prior from the reference image. However, we observe that when the prompt and reference image are misaligned, the generated results exhibit a stronger bias toward the textual prior, leading to a significant loss of reference content. To address this issue, we propose AlignGen, a Cross-Modality Prior Alignment mechanism that enhances personalized image generation by: 1) introducing a learnable token to bridge the gap between the textual and visual priors, 2) incorporating a robust training strategy to ensure proper prior alignment, and 3) employing a selective cross-modal attention mask within the multi-modal attention mechanism to further align the priors. Experimental results demonstrate that AlignGen outperforms existing zero-shot methods and even surpasses popular test-time optimization approaches.
- Abstract(参考訳): パーソナライズされた画像生成は、ユーザが提供する概念をテキスト・ツー・イメージモデルに統合することを目的としており、与えられたプロンプトに基づいてカスタマイズされたコンテンツの生成を可能にする。
最近のゼロショットアプローチ、特に拡散トランスフォーマーを利用するものは、マルチモーダルアテンション機構を通じて参照画像情報を組み込む。
この統合により、生成された出力は、プロンプトからのテキスト先行と参照画像からのビジュアル先行の両方の影響を受けられる。
しかし、プロンプトと参照画像が一致していない場合、生成した結果がテキスト先行に対する強いバイアスを示し、参照内容が著しく失われることが観察された。
この問題に対処するために、私たちは、パーソナライズされた画像生成を強化するクロスモダリティ・プライオリティアライメントメカニズムであるAlignGenを提案する。
1) 学習可能なトークンを導入して,テキストと視覚的先行のギャップを埋める。
2 適切な事前調整を確保するための堅固な訓練戦略を取り入れ、
3) マルチモーダル・アテンション・メカニズムに選択的クロスモーダル・アテンション・マスクを取り入れ, 事前の調整を図った。
実験の結果、AlignGenは既存のゼロショットメソッドよりも優れており、テスト時間最適化のアプローチよりも優れています。
関連論文リスト
- In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation [41.79836820271156]
In-Context Brush"は、被写体挿入をカスタマイズするためのゼロショットフレームワークである。
オブジェクトイメージとテキストプロンプトをクロスモーダルなデモとして定式化する。
目標は、対象画像を、モデルチューニングなしでテキストプロンプトを整列する対象に塗布することである。
論文 参考訳(メタデータ) (2025-05-26T17:49:10Z) - FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation [21.181545626612028]
被験者駆動画像生成のためのトレーニング不要なフレームワークであるFreeGraftorを提案する。
FreeGraftorは、参照対象から生成された画像へ視覚的詳細を転送するために、セマンティックマッチングと位置制約付き注意融合を使用している。
本フレームワークは,マルチオブジェクト生成にシームレスに拡張可能であり,実世界の展開に有効である。
論文 参考訳(メタデータ) (2025-04-22T14:55:23Z) - Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。