論文の概要: Conceptrol: Concept Control of Zero-shot Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2503.06568v1
- Date: Sun, 09 Mar 2025 11:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:47.631835
- Title: Conceptrol: Concept Control of Zero-shot Personalized Image Generation
- Title(参考訳): Conceptrol:ゼロショットパーソナライズド画像生成の概念制御
- Authors: Qiyuan He, Angela Yao,
- Abstract要約: Conceptrolは、計算オーバーヘッドを追加することなくゼロショットアダプタを強化するフレームワークである。
バニラIPアダプタよりも、パーソナライズベンチマークが最大89%改善されている。
- 参考スコア(独自算出の注目度): 36.39574513193442
- License:
- Abstract: Personalized image generation with text-to-image diffusion models generates unseen images based on reference image content. Zero-shot adapter methods such as IP-Adapter and OminiControl are especially interesting because they do not require test-time fine-tuning. However, they struggle to balance preserving personalized content and adherence to the text prompt. We identify a critical design flaw resulting in this performance gap: current adapters inadequately integrate personalization images with the textual descriptions. The generated images, therefore, replicate the personalized content rather than adhere to the text prompt instructions. Yet the base text-to-image has strong conceptual understanding capabilities that can be leveraged. We propose Conceptrol, a simple yet effective framework that enhances zero-shot adapters without adding computational overhead. Conceptrol constrains the attention of visual specification with a textual concept mask that improves subject-driven generation capabilities. It achieves as much as 89% improvement on personalization benchmarks over the vanilla IP-Adapter and can even outperform fine-tuning approaches such as Dreambooth LoRA. The source code is available at https://github.com/QY-H00/Conceptrol.
- Abstract(参考訳): テキストと画像の拡散モデルを用いたパーソナライズされた画像生成は、参照画像の内容に基づいて見えない画像を生成する。
IP-AdapterやOminiControlのようなゼロショットアダプタメソッドは、テストタイムの微調整を必要としないため、特に興味深い。
しかし、パーソナライズされたコンテンツの保存とテキストプロンプトの遵守のバランスを取るのに苦労している。
現在のアダプタは、パーソナライズ画像とテキスト記述を不適切に統合しています。
したがって、生成された画像は、テキストプロンプト命令に従うのではなく、パーソナライズされたコンテンツを複製する。
しかし、ベースとなるテキスト・トゥ・イメージには、活用可能な強力な概念的理解能力がある。
計算オーバーヘッドを伴わずにゼロショットアダプタを強化した,シンプルで効果的なフレームワークであるConceptrolを提案する。
コンセプトロールは、主観駆動生成能力を改善するテキストコンセプトマスクで視覚仕様の注意を拘束する。
バニラIPアダプタよりも最大89%のパーソナライズベンチマークを実現し、Dreambooth LoRAのような微調整アプローチよりも優れています。
ソースコードはhttps://github.com/QY-H00/Conceptrol.comで入手できる。
関連論文リスト
- DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models [53.385754347812835]
概念スライダは、学習概念(属性/オブジェクト)によるきめ細かい画像制御と編集方法を導入した
このアプローチは、学習概念に使用されるローランドアダプタ(LoRA)のロードとアンロードにより、パラメータを追加し、推論時間を増加させる。
そこで本研究では,テキストエンコーダを共有するモデル間で一般化可能な,テキスト埋め込みによる概念学習のための簡単なテキストインバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T01:02:30Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Fast Personalized Text-to-Image Syntheses With Attention Injection [17.587109812987475]
生成した画像と参照画像のテキストイメージの一貫性とアイデンティティの整合性のバランスをとることができる有効かつ高速なアプローチを提案する。
本手法は,拡散モデル固有のテキスト・画像生成能力を保ちながら,微調整なしでパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-17T17:42:02Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - InstructBooth: Instruction-following Personalized Text-to-Image
Generation [30.89054609185801]
InstructBoothは、パーソナライズされたテキスト・ツー・イメージモデルにおける画像テキストアライメントを強化するために設計された新しい方法である。
提案手法はまず,一意の識別子を用いて,少数の被写体固有の画像でテキスト・ツー・イメージ・モデルをパーソナライズする。
パーソナライズ後、強化学習を用いてパーソナライズされたテキスト・ツー・イメージモデルを微調整し、画像・テキストのアライメントを定量化する報酬を最大化する。
論文 参考訳(メタデータ) (2023-12-04T20:34:46Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image
Diffusion Models [11.105763635691641]
テキストプロンプトの代替として、画像プロンプトがある。
我々は、事前訓練されたテキスト・画像拡散モデルに対して、画像のプロンプト機能を実現するための、効果的で軽量なアダプタであるIP-Adapterを提案する。
論文 参考訳(メタデータ) (2023-08-13T08:34:51Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。