論文の概要: Attention Calibration for Disentangled Text-to-Image Personalization
- arxiv url: http://arxiv.org/abs/2403.18551v2
- Date: Thu, 11 Apr 2024 14:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:16:14.909240
- Title: Attention Calibration for Disentangled Text-to-Image Personalization
- Title(参考訳): テキスト対画像パーソナライズのための注意校正
- Authors: Yanbing Zhang, Mengping Yang, Qin Zhou, Zhe Wang,
- Abstract要約: 本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 12.339742346826403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent thrilling progress in large-scale text-to-image (T2I) models has unlocked unprecedented synthesis quality of AI-generated content (AIGC) including image generation, 3D and video composition. Further, personalized techniques enable appealing customized production of a novel concept given only several images as reference. However, an intriguing problem persists: Is it possible to capture multiple, novel concepts from one single reference image? In this paper, we identify that existing approaches fail to preserve visual consistency with the reference image and eliminate cross-influence from concepts. To alleviate this, we propose an attention calibration mechanism to improve the concept-level understanding of the T2I model. Specifically, we first introduce new learnable modifiers bound with classes to capture attributes of multiple concepts. Then, the classes are separated and strengthened following the activation of the cross-attention operation, ensuring comprehensive and self-contained concepts. Additionally, we suppress the attention activation of different classes to mitigate mutual influence among concepts. Together, our proposed method, dubbed DisenDiff, can learn disentangled multiple concepts from one single image and produce novel customized images with learned concepts. We demonstrate that our method outperforms the current state of the art in both qualitative and quantitative evaluations. More importantly, our proposed techniques are compatible with LoRA and inpainting pipelines, enabling more interactive experiences.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(T2I)モデルにおける最近のスリリングな進歩は、画像生成、3D、ビデオ合成を含むAIGC(AIGC)の前例のない合成品質を解放した。
さらに、パーソナライズされた技術により、複数の画像のみを参照として付与した新規概念のカスタマイズ生産をアピールすることができる。
しかし、興味深い問題は残る: 1つの参照画像から複数の新しい概念をキャプチャすることは可能か?
本稿では,既存の手法が参照画像との視覚的整合性を維持するのに失敗し,概念から相互影響を排除していることを示す。
そこで本研究では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
具体的には、複数の概念の属性をキャプチャするために、クラスにバインドされた新しい学習可能な修飾子を導入する。
そして,クロスアテンション操作の活性化によりクラスを分離・強化し,包括的で自己完結した概念を確実にする。
さらに,概念間の相互影響を軽減するために,異なるクラスに対する注意の活性化を抑える。
提案手法はDistenDiffと呼ばれ、1つの画像から複数の概念を分離して学習し、新しい画像を生成する。
本手法は,定性評価と定量的評価の両方において,現在の最先端技術よりも優れていることを示す。
さらに重要なのは、提案したテクニックがLoRAやパイプラインのインペイントと互換性があり、よりインタラクティブなエクスペリエンスを実現しています。
関連論文リスト
- MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。
これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Key-Locked Rank One Editing for Text-to-Image Personalization [43.195870616558935]
本稿では,基礎となるT2Iモデルの動的ランク1更新による課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。
Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、過度な適合を避ける。
Perfusionは質的・量的両面で強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-02T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。