Fugu-MT 論文翻訳(概要): SPDiffusion: Semantic Protection Diffusion for Multi-concept Text-to-image Generation

論文の概要: SPDiffusion: Semantic Protection Diffusion for Multi-concept Text-to-image Generation

arxiv url: http://arxiv.org/abs/2409.01327v1
Date: Mon, 2 Sep 2024 15:28:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 06:25:12.756954
Title: SPDiffusion: Semantic Protection Diffusion for Multi-concept Text-to-image Generation
Title（参考訳）: SPDiffusion:多概念テキスト画像生成のための意味的保護拡散
Authors: Yang Zhang, Rui Zhang, Xuecheng Nie, Haochen Li, Jikun Chen, Yifan Hao, Xin Zhang, Luoqi Liu, Ling Li,
Abstract要約: 本研究では,無関係なトークンの影響から領域の意味を保護するための新しい意味的保護拡散(SPDiffusion)を提案する。 SPDiffusion frameworkでは、各領域とトークンの関連性を表すセマンティック保護マスク(SP-Mask)を設計し、生成プロセスにおいて無関係なトークンが特定の領域に与える影響を保護するためのセマンティック保護クロスアテンション(SP-Attn)を提案する。
参考スコア（独自算出の注目度）: 18.3783330454167
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent text-to-image models have achieved remarkable success in generating high-quality images. However, when tasked with multi-concept generation which creates images containing multiple characters or objects, existing methods often suffer from attribute confusion, resulting in severe text-image inconsistency. We found that attribute confusion occurs when a certain region of the latent features attend to multiple or incorrect prompt tokens. In this work, we propose novel Semantic Protection Diffusion (SPDiffusion) to protect the semantics of regions from the influence of irrelevant tokens, eliminating the confusion of non-corresponding attributes. In the SPDiffusion framework, we design a Semantic Protection Mask (SP-Mask) to represent the relevance of the regions and the tokens, and propose a Semantic Protection Cross-Attention (SP-Attn) to shield the influence of irrelevant tokens on specific regions in the generation process. To evaluate our method, we created a diverse multi-concept benchmark, and SPDiffusion achieves state-of-the-art results on this benchmark, proving its effectiveness. Our method can be combined with many other application methods or backbones, such as ControlNet, Story Diffusion, PhotoMaker and PixArt-alpha to enhance their multi-concept capabilities, demonstrating strong compatibility and scalability.
Abstract（参考訳）: 近年のテキスト・ツー・イメージモデルでは,高品質な画像の生成に顕著な成功を収めている。しかし、複数の文字やオブジェクトを含む画像を生成するマルチコンセプト生成をタスクすると、既存のメソッドは属性の混乱に悩まされ、重度のテキストイメージの不整合が発生する。属性の混乱は、潜在特徴のある領域が複数のまたは間違ったプロンプトトークンに付随する場合に発生する。本研究では,意味的保護拡散(SPDiffusion, Semantic Protection Diffusion)を提案する。 SPDiffusion frameworkでは、各領域とトークンの関連性を表すセマンティック保護マスク(SP-Mask)を設計し、生成プロセスにおいて無関係なトークンが特定の領域に与える影響を保護するためのセマンティック保護クロスアテンション(SP-Attn)を提案する。提案手法を評価するため,多種多様なマルチコンセプト・ベンチマークを作成し,SPDiffusionはこのベンチマークの最先端結果を達成し,その有効性を実証した。当社の方法は,ControlNet,Story Diffusion,PhotoMaker,PixArt-alphaなど,他の多くのアプリケーションメソッドやバックボーンと組み合わせて,マルチコンセプト機能を強化し,高い互換性とスケーラビリティを示す。

関連論文リスト

FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation [0.0]
複数のパーソナライズされた概念を単一のイメージに統合する手法は、テキスト・ツー・イメージ(T2I)生成の分野で大きな注目を集めている。既存の手法では、非個人化領域の歪みにより、複数のオブジェクトを持つ複雑なシーンのパフォーマンス劣化を経験する。 FlipConceptは、複数のパーソナライズされた概念を、追加のチューニングを必要とせず、シームレスに単一のイメージに統合する新しいアプローチである。
論文参考訳（メタデータ） (2025-02-21T04:37:18Z)
Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文参考訳（メタデータ） (2025-01-02T18:52:11Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。提案手法は,最先端性能とゼロショット能力に優れる。
論文参考訳（メタデータ） (2024-05-17T11:29:23Z)
Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models [85.14042557052352]
本研究では,カスタマイズされたテキストと画像の拡散モデルを推論時に作成する方法であるConcept Weaverを紹介する。概念ウィーバーは、他のアプローチと比較して、アイデンティティの忠実度が高い複数のカスタム概念を生成可能であることを示す。
論文参考訳（メタデータ） (2024-04-05T06:41:27Z)
Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting [8.572133295533643]
本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
論文参考訳（メタデータ） (2024-03-27T01:28:36Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文参考訳（メタデータ） (2024-02-15T14:19:42Z)
Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文参考訳（メタデータ） (2023-12-19T03:32:10Z)
Energy-Based Cross Attention for Bayesian Context Update in Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文参考訳（メタデータ） (2023-06-16T14:30:41Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文参考訳（メタデータ） (2023-05-23T10:49:22Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文参考訳（メタデータ） (2022-04-05T01:47:35Z)
Spatially Multi-conditional Image Generation [80.04130168156792]
本稿では,マルチ条件画像生成の問題に対処する新しいニューラルアーキテクチャを提案する。提案手法は, 利用可能なラベルを入力トークンとして受信する, 画素単位のトランスフォーマー型アーキテクチャを用いる。 3つのベンチマークデータセットに対する実験により,提案手法の最先端および比較ベースラインに対する明らかな優位性を示した。
論文参考訳（メタデータ） (2022-03-25T17:57:13Z)
Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文参考訳（メタデータ） (2021-03-27T11:04:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。