論文の概要: MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2404.11565v2
- Date: Mon, 6 May 2024 16:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 22:46:58.375631
- Title: MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
- Title(参考訳): MoA:パーソナライズされた画像生成における主観的文脈の絡み合いに対する混在認識
- Authors: Kuan-Chieh Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman,
- Abstract要約: 我々は、Mixture-of-Attention (MoA)というテキスト・画像拡散モデルのパーソナライズのための新しいアーキテクチャを導入する。
MoAは、パーソナライズされたブランチと非パーソナライズされた前のブランチの2つの注意経路に生成ワークロードを分散する。
トレーニングが完了すると、MoAは、複数の被験者が構成や相互作用を持つ高品質でパーソナライズされた画像の作成を促進する。
- 参考スコア(独自算出の注目度): 46.6846599602411
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a new architecture for personalization of text-to-image diffusion models, coined Mixture-of-Attention (MoA). Inspired by the Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA distributes the generation workload between two attention pathways: a personalized branch and a non-personalized prior branch. MoA is designed to retain the original model's prior by fixing its attention layers in the prior branch, while minimally intervening in the generation process with the personalized branch that learns to embed subjects in the layout and context generated by the prior branch. A novel routing mechanism manages the distribution of pixels in each layer across these branches to optimize the blend of personalized and generic content creation. Once trained, MoA facilitates the creation of high-quality, personalized images featuring multiple subjects with compositions and interactions as diverse as those generated by the original model. Crucially, MoA enhances the distinction between the model's pre-existing capability and the newly augmented personalized intervention, thereby offering a more disentangled subject-context control that was previously unattainable. Project page: https://snap-research.github.io/mixture-of-attention
- Abstract(参考訳): 本稿では,Mixture-of-Attention (MoA)というテキスト・画像拡散モデルのパーソナライズのための新しいアーキテクチャを提案する。
大規模言語モデル(LLM)で使用されるMixture-of-ExpertsメカニズムにインスパイアされたMoAは、生成ワークロードを2つの注意経路 – パーソナライズされたブランチと非パーソナライズされた事前ブランチ – に分散する。
MoAは、前のブランチで注意層を固定し、前のブランチで生成されたレイアウトとコンテキストに被写体を埋め込むことを学習するパーソナライズされたブランチで、生成プロセスに最小限の介入をしながら、元のモデルの事前を維持するように設計されている。
新たなルーティング機構は、各レイヤにおける各ブランチ間のピクセルの分散を管理し、パーソナライズされたコンテンツ生成とジェネリックなコンテンツ生成のブレンドを最適化する。
トレーニングが完了すると、MoAは、複数の被験者が構成や相互作用を持つ高品質でパーソナライズされた画像の作成を促進する。
重要なことに、MoAはモデルの既存の能力と、新たに強化されたパーソナライズされた介入の区別を強化する。
プロジェクトページ:https://snap-research.github.io/mixture-of-attention
関連論文リスト
- MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation [22.69019130782004]
フレキシブルなゼロショット機能を備えたオープン語彙でトレーニング不要なパーソナライズされたイメージモデルであるMoMAを紹介します。
特徴抽出器とジェネレータの両方に二重の役割を果たすために、MoMAをトレーニングします。
本稿では,画像拡散モデルに画像特徴を効率的に伝達する自己注意ショートカット手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:55:49Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。
OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。
civitai.comのLoRAモデルは直接利用することができる。
論文 参考訳(メタデータ) (2024-03-16T17:30:15Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention [37.58569261714206]
拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。
FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
論文 参考訳(メタデータ) (2023-05-17T17:59:55Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。