論文の概要: AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection
- arxiv url: http://arxiv.org/abs/2406.11643v3
- Date: Fri, 5 Jul 2024 13:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 22:35:04.351784
- Title: AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection
- Title(参考訳): AnyMaker: Decoupled Dual-Level ID注入によるゼロショット汎用オブジェクトのカスタマイズ
- Authors: Lingjie Kong, Kai Wu, Xiaobin Hu, Wenhui Han, Jinlong Peng, Chengming Xu, Donghao Luo, Jiangning Zhang, Chengjie Wang, Yanwei Fu,
- Abstract要約: 我々は,高ID忠実度とフレキシブルテキスト編集性を備えた汎用オブジェクトを生成するフレームワークであるAnyMakerを紹介する。
AnyMakerの有効性は、新しい一般ID抽出、二重レベルID注入、およびID認識デカップリングに起因している。
我々のアプローチを検証し、汎用オブジェクトのカスタマイズの研究を促進するため、我々は最初の大規模汎用IDデータセットを作成します。
- 参考スコア(独自算出の注目度): 72.41427550339296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image based object customization, aiming to generate images with the same identity (ID) as objects of interest in accordance with text prompts and reference images, has made significant progress. However, recent customizing research is dominated by specialized tasks, such as human customization or virtual try-on, leaving a gap in general object customization. To this end, we introduce AnyMaker, an innovative zero-shot object customization framework capable of generating general objects with high ID fidelity and flexible text editability. The efficacy of AnyMaker stems from its novel general ID extraction, dual-level ID injection, and ID-aware decoupling. Specifically, the general ID extraction module extracts sufficient ID information with an ensemble of self-supervised models to tackle the diverse customization tasks for general objects. Then, to provide the diffusion UNet with the extracted ID as much while not damaging the text editability in the generation process, we design a global-local dual-level ID injection module, in which the global-level semantic ID is injected into text descriptions while the local-level ID details are injected directly into the model through newly added cross-attention modules. In addition, we propose an ID-aware decoupling module to disentangle ID-related information from non-ID elements in the extracted representations for high-fidelity generation of both identity and text descriptions. To validate our approach and boost the research of general object customization, we create the first large-scale general ID dataset, Multi-Category ID-Consistent (MC-IDC) dataset, with 315k text-image samples and 10k categories. Experiments show that AnyMaker presents remarkable performance in general object customization and outperforms specialized methods in corresponding tasks. Code and dataset will be released soon.
- Abstract(参考訳): テキスト・ツー・イメージ・オブジェクトのカスタマイズは、テキストのプロンプトや参照画像に応じて、同じID(ID)で画像を生成することを目的としており、大きな進歩を遂げている。
しかし、近年のカスタマイズ研究は、人間のカスタマイズや仮想試行のような特殊なタスクに支配されており、一般的なオブジェクトのカスタマイズにギャップが残されている。
この目的のために、AnyMakerという革新的なゼロショットオブジェクトカスタマイズフレームワークを導入し、高いID忠実度と柔軟なテキスト編集性を持つ汎用オブジェクトを生成する。
AnyMakerの有効性は、新しい一般ID抽出、二重レベルID注入、およびID認識デカップリングに起因している。
具体的には、汎用ID抽出モジュールは、汎用オブジェクトの多様なカスタマイズタスクに取り組むために、自己教師付きモデルのアンサンブルで十分なID情報を抽出する。
そして, 生成プロセスにおけるテキスト編集性を損なうことなく, 抽出したIDを拡散するUNetを提供するために, グローバルなローカルなデュアルレベルIDインジェクションモジュールを設計し, グローバルレベルのセマンティックIDをテキスト記述に注入し, ローカルレベルのID詳細を新たに付加したクロスアテンションモジュールを通じてモデルに直接注入する。
さらに,非ID要素からID関連情報を非ID要素から切り離すためのID対応デカップリングモジュールを提案する。
提案手法の検証と汎用オブジェクトのカスタマイズの研究を促進するため,315kのテキストイメージサンプルと10kのカテゴリを持つ,最初の大規模汎用IDデータセットであるMC-IDC(Multi-Category ID-Consistent)データセットを構築した。
実験により、AnyMakerは一般的なオブジェクトのカスタマイズにおいて顕著なパフォーマンスを示し、対応するタスクにおける特殊なメソッドよりも優れています。
コードとデータセットはまもなくリリースされる。
関連論文リスト
- DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization [10.760799194716922]
UniPortraitは、シングルIDとマルチIDのカスタマイズを統一する革新的なヒューマンイメージパーソナライズフレームワークである。
UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールの2つのプラグイン・アンド・プレイモジュールで構成されている。
論文 参考訳(メタデータ) (2024-08-12T06:27:29Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Conditional Cross Attention Network for Multi-Space Embedding without
Entanglement in Only a SINGLE Network [1.8899300124593648]
本研究では,複数の特定の属性に対して,単一のバックボーンのみを交叉する多空間埋め込みを誘導する条件付きクロスアテンションネットワークを提案する。
提案手法は,FashionAI,DARN,DeepFashion,Zappos50Kベンチマークデータセット上で一貫した最先端性能を実現した。
論文 参考訳(メタデータ) (2023-07-25T04:48:03Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models [37.36999826208225]
本稿では,ゼロショット・イン・ディストリビューション(ID)検出と呼ばれる新しい問題設定を提案する。
我々は、IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し、IDオブジェクトを持たないイメージをOODイメージとしてトレーニングせずに識別する。
本稿では,CLIP機能のグローバルおよびローカルな視覚テキストアライメントに基づく,シンプルで効果的な概念マッチング手法であるGlobal-Local Concept Matchingを提案する。
論文 参考訳(メタデータ) (2023-04-10T11:35:42Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。