Fugu-MT 論文翻訳(概要): Cones 2: Customizable Image Synthesis with Multiple Subjects

論文の概要: Cones 2: Customizable Image Synthesis with Multiple Subjects

arxiv url: http://arxiv.org/abs/2305.19327v1
Date: Tue, 30 May 2023 18:00:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 20:05:28.342033
Title: Cones 2: Customizable Image Synthesis with Multiple Subjects
Title（参考訳）: Cones 2: 複数の被験者によるカスタマイズ可能な画像合成
Authors: Zhiheng Liu, Yifei Zhang, Yujun Shen, Kecheng Zheng, Kai Zhu, Ruili Feng, Yu Liu, Deli Zhao, Jingren Zhou, Yang Cao
Abstract要約: 本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
参考スコア（独自算出の注目度）: 50.54010141032032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synthesizing images with user-specified subjects has received growing attention due to its practical applications. Despite the recent success in single subject customization, existing algorithms suffer from high training cost and low success rate along with increased number of subjects. Towards controllable image synthesis with multiple subjects as the constraints, this work studies how to efficiently represent a particular subject as well as how to appropriately compose different subjects. We find that the text embedding regarding the subject token already serves as a simple yet effective representation that supports arbitrary combinations without any model tuning. Through learning a residual on top of the base embedding, we manage to robustly shift the raw subject to the customized subject given various text conditions. We then propose to employ layout, a very abstract and easy-to-obtain prior, as the spatial guidance for subject arrangement. By rectifying the activations in the cross-attention map, the layout appoints and separates the location of different subjects in the image, significantly alleviating the interference across them. Both qualitative and quantitative experimental results demonstrate our superiority over state-of-the-art alternatives under a variety of settings for multi-subject customization.
Abstract（参考訳）: ユーザ特定対象による画像合成は,その実用的応用により注目されている。単科目のカスタマイズが最近成功したにもかかわらず、既存のアルゴリズムは高いトレーニングコストと低い成功率に苦しめられている。本研究は,複数の対象を制約として制御可能な画像合成に向けて,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。対象トークンに関するテキスト埋め込みは、モデルチューニングなしで任意の組み合わせをサポートする、シンプルで効果的な表現としてすでに役立ちます。ベース埋め込みの上の残差を学習することで、さまざまなテキスト条件を条件として、原対象をカスタマイズ対象に頑健にシフトさせる。次に,対象配置のための空間的ガイダンスとして,非常に抽象的で分かりやすいレイアウトを提案する。クロスアテンションマップのアクティベーションを正すことにより、レイアウトは画像内の異なる被写体の位置を割り当て、分離し、それらの間の干渉を著しく緩和する。定性的かつ定量的な実験結果は、多目的カスタマイズのための様々な設定の下で、最先端の代替品よりも優れていることを示す。

関連論文リスト

DynASyn: Multi-Subject Personalization Enabling Dynamic Action Synthesis [3.6294581578004332]
単一参照画像からの効果的な多目的パーソナライズであるDynASynを提案する。 DynASynは、概念に基づく先行と主題の出現と行動とを整合させることにより、パーソナライズプロセスにおける主題のアイデンティティを保存する。さらに,アイデンティティの保存と行動多様性のトレードオフを高めるために,概念に基づくプロンプト・アンド・イメージの強化を提案する。
論文参考訳（メタデータ） (2025-03-22T10:56:35Z)
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文参考訳（メタデータ） (2025-01-13T18:37:36Z)
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文参考訳（メタデータ） (2024-07-06T03:35:43Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文参考訳（メタデータ） (2024-03-25T17:52:07Z)
Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文参考訳（メタデータ） (2024-02-05T18:42:34Z)
Repositioning the Subject within Image [78.8467524191102]
本稿では,革新的動的操作タスク,主題再構成を導入する。このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文参考訳（メタデータ） (2024-01-30T10:04:49Z)
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。 LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文参考訳（メタデータ） (2023-11-21T04:28:12Z)
TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文参考訳（メタデータ） (2020-07-23T15:34:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。