論文の概要: Cones 2: Customizable Image Synthesis with Multiple Subjects
- arxiv url: http://arxiv.org/abs/2305.19327v1
- Date: Tue, 30 May 2023 18:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:05:28.342033
- Title: Cones 2: Customizable Image Synthesis with Multiple Subjects
- Title(参考訳): Cones 2: 複数の被験者によるカスタマイズ可能な画像合成
- Authors: Zhiheng Liu, Yifei Zhang, Yujun Shen, Kecheng Zheng, Kai Zhu, Ruili
Feng, Yu Liu, Deli Zhao, Jingren Zhou, Yang Cao
- Abstract要約: 本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
- 参考スコア(独自算出の注目度): 50.54010141032032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing images with user-specified subjects has received growing
attention due to its practical applications. Despite the recent success in
single subject customization, existing algorithms suffer from high training
cost and low success rate along with increased number of subjects. Towards
controllable image synthesis with multiple subjects as the constraints, this
work studies how to efficiently represent a particular subject as well as how
to appropriately compose different subjects. We find that the text embedding
regarding the subject token already serves as a simple yet effective
representation that supports arbitrary combinations without any model tuning.
Through learning a residual on top of the base embedding, we manage to robustly
shift the raw subject to the customized subject given various text conditions.
We then propose to employ layout, a very abstract and easy-to-obtain prior, as
the spatial guidance for subject arrangement. By rectifying the activations in
the cross-attention map, the layout appoints and separates the location of
different subjects in the image, significantly alleviating the interference
across them. Both qualitative and quantitative experimental results demonstrate
our superiority over state-of-the-art alternatives under a variety of settings
for multi-subject customization.
- Abstract(参考訳): ユーザ特定対象による画像合成は,その実用的応用により注目されている。
単科目のカスタマイズが最近成功したにもかかわらず、既存のアルゴリズムは高いトレーニングコストと低い成功率に苦しめられている。
本研究は,複数の対象を制約として制御可能な画像合成に向けて,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
対象トークンに関するテキスト埋め込みは、モデルチューニングなしで任意の組み合わせをサポートする、シンプルで効果的な表現としてすでに役立ちます。
ベース埋め込みの上の残差を学習することで、さまざまなテキスト条件を条件として、原対象をカスタマイズ対象に頑健にシフトさせる。
次に,対象配置のための空間的ガイダンスとして,非常に抽象的で分かりやすいレイアウトを提案する。
クロスアテンションマップのアクティベーションを正すことにより、レイアウトは画像内の異なる被写体の位置を割り当て、分離し、それらの間の干渉を著しく緩和する。
定性的かつ定量的な実験結果は、多目的カスタマイズのための様々な設定の下で、最先端の代替品よりも優れていることを示す。
関連論文リスト
- Training-Free Consistent Text-to-Image Generation [84.51727853278007]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models [48.10798436003449]
テキスト間の拡散モデルによって生成された画像は、提供されたテキストプロンプトの意味的な意図を忠実に表現するとは限らない。
私たちの研究は、対照的な文脈でこの課題に取り組むことによって、新しい視点を導入します。
さまざまなシナリオにまたがって広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含む。
論文 参考訳(メタデータ) (2023-12-11T01:42:15Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [27.229599030825643]
本稿では,テキストプロンプトと空間レイアウトの両面に整合した高品質な画像の生成に優れるレイアウト・ツー・イメージ合成のトレーニング不要な手法を提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、パフォーマンスを大幅に向上し、以前のメソッドで観測されたセマンティックな障害に効果的に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。