論文の概要: Improving Multi-Subject Consistency in Open-Domain Image Generation with Isolation and Reposition Attention
- arxiv url: http://arxiv.org/abs/2411.19261v1
- Date: Thu, 28 Nov 2024 16:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:01.376937
- Title: Improving Multi-Subject Consistency in Open-Domain Image Generation with Isolation and Reposition Attention
- Title(参考訳): 分離・再配置注意によるオープンドメイン画像生成における多目的整合性の改善
- Authors: Huiguo He, Qiuyue Wang, Yuan Zhou, Yuxuan Cai, Hongyang Chao, Jian Yin, Huan Yang,
- Abstract要約: トレーニングフリー拡散モデルは、オープンドメインシナリオ内で一貫した画像を生成する際、顕著な進歩を遂げた。
これらの手法の鍵となる考え方は、参照対象情報を注目層に組み込むことである。
既存の手法は、多くの主題を扱う際にも、依然として準最適性能が得られる。
- 参考スコア(独自算出の注目度): 25.69140705877128
- License:
- Abstract: Training-free diffusion models have achieved remarkable progress in generating multi-subject consistent images within open-domain scenarios. The key idea of these methods is to incorporate reference subject information within the attention layer. However, existing methods still obtain suboptimal performance when handling numerous subjects. This paper reveals the two primary issues contributing to this deficiency. Firstly, there is undesired interference among different subjects within the target image. Secondly, tokens tend to reference nearby tokens, which reduces the effectiveness of the attention mechanism when there is a significant positional difference between subjects in reference and target images. To address these challenges, we propose a training-free diffusion model with Isolation and Reposition Attention, named IR-Diffusion. Specifically, Isolation Attention ensures that multiple subjects in the target image do not reference each other, effectively eliminating the subject fusion. On the other hand, Reposition Attention involves scaling and repositioning subjects in both reference and target images to the same position within the images. This ensures that subjects in the target image can better reference those in the reference image, thereby maintaining better consistency. Extensive experiments demonstrate that the proposed methods significantly enhance multi-subject consistency, outperforming all existing methods in open-domain scenarios.
- Abstract(参考訳): 学習自由拡散モデルは、オープンドメインシナリオ内で複数のオブジェクト一貫した画像を生成する際、顕著な進歩を遂げた。
これらの手法の鍵となる考え方は、参照対象情報を注目層に組み込むことである。
しかし、既存の手法は、多くの主題を扱う際にも、依然として準最適性能が得られる。
本稿では,この欠損の原因となる2つの主要な問題点を明らかにする。
まず、対象画像内の異なる被写体間で望ましくない干渉がある。
第二に、トークンは近隣のトークンを参照する傾向があり、参照画像と対象画像の位置差が著しく異なる場合、注意機構の有効性が低下する。
これらの課題に対処するために、IR拡散という分離と再配置を意図した学習自由拡散モデルを提案する。
特に、分離注意は、対象画像内の複数の被写体が互いに参照しないことを保証し、被写体融合を効果的に除去する。
一方、Reposition Attentionでは、参照画像とターゲット画像の両方の被写体を、画像内の同じ位置にスケーリングおよび再配置する。
これにより、対象画像内の被写体が参照画像中の被写体をよりよく参照し、より良い一貫性を維持することができる。
大規模な実験により,提案手法は複数オブジェクトの整合性を著しく向上し,オープンドメインシナリオにおける既存手法よりも優れていることが示された。
関連論文リスト
- Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - CoCoNO: Attention Contrast-and-Complete for Initial Noise Optimization in Text-to-Image Synthesis [8.386261591495103]
自己注意マップと相互注意マップの相補的な情報を活用することで、初期潜伏者を最適化する新しいアルゴリズムであるCoCoNOを導入する。
本手法では,各自己注意区間が特定の被験者のクロスアテンションマップにのみリンクされていることを保証することで,所望のオーバーラップを最小化するアテンションコントラストロスと,これらのセグメント内でのアクティベーションを最大化し,各被写体が完全に明確に表現されることを保証するアテンション完全ロスという2つの新たなロス関数を導入する。
論文 参考訳(メタデータ) (2024-11-25T08:20:14Z) - Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! [3.355491272942994]
本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
論文 参考訳(メタデータ) (2024-10-28T12:43:48Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。