論文の概要: CustAny: Customizing Anything from A Single Example
- arxiv url: http://arxiv.org/abs/2406.11643v4
- Date: Fri, 22 Nov 2024 09:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:32.893578
- Title: CustAny: Customizing Anything from A Single Example
- Title(参考訳): CustAny: ひとつの例から何かをカスタマイズする
- Authors: Lingjie Kong, Kai Wu, Xiaobin Hu, Wenhui Han, Jinlong Peng, Chengming Xu, Donghao Luo, Mengtian Li, Jiangning Zhang, Chengjie Wang, Yanwei Fu,
- Abstract要約: 10kカテゴリにわたる315kのテキストイメージサンプルを特徴とする,汎用オブジェクトの大規模なデータセットを構築するための新しいパイプラインを提案する。
MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。
当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
- 参考スコア(独自算出の注目度): 73.90939022698399
- License:
- Abstract: Recent advances in diffusion-based text-to-image models have simplified creating high-fidelity images, but preserving the identity (ID) of specific elements, like a personal dog, is still challenging. Object customization, using reference images and textual descriptions, is key to addressing this issue. Current object customization methods are either object-specific, requiring extensive fine-tuning, or object-agnostic, offering zero-shot customization but limited to specialized domains. The primary issue of promoting zero-shot object customization from specific domains to the general domain is to establish a large-scale general ID dataset for model pre-training, which is time-consuming and labor-intensive. In this paper, we propose a novel pipeline to construct a large dataset of general objects and build the Multi-Category ID-Consistent (MC-IDC) dataset, featuring 315k text-image samples across 10k categories. With the help of MC-IDC, we introduce Customizing Anything (CustAny), a zero-shot framework that maintains ID fidelity and supports flexible text editing for general objects. CustAny features three key components: a general ID extraction module, a dual-level ID injection module, and an ID-aware decoupling module, allowing it to customize any object from a single reference image and text prompt. Experiments demonstrate that CustAny outperforms existing methods in both general object customization and specialized domains like human customization and virtual try-on. Our contributions include a large-scale dataset, the CustAny framework and novel ID processing to advance this field. Code and dataset will be released soon in https://github.com/LingjieKong-fdu/CustAny.
- Abstract(参考訳): 拡散に基づくテキスト・ツー・イメージモデルの最近の進歩は、高忠実度画像の作成を単純化しているが、個人的な犬のような特定の要素のアイデンティティ(ID)を保存することは依然として困難である。
参照イメージとテキスト記述を使用したオブジェクトのカスタマイズは、この問題に対処するための鍵となる。
現在のオブジェクトのカスタマイズ方法は、オブジェクト固有のものであり、広範囲の微調整を必要とするか、あるいはオブジェクトに依存しないため、ゼロショットのカスタマイズを提供するが、特殊なドメインに限定される。
特定のドメインから一般ドメインへのゼロショットオブジェクトのカスタマイズを促進する主な課題は、モデル事前トレーニングのための大規模な汎用IDデータセットを確立することである。
本稿では,汎用オブジェクトの大きなデータセットを構築し,MC-IDC(Multi-Category ID-Consistent)データセットを構築するための新しいパイプラインを提案する。
MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。
CustAnyは、ジェネラルID抽出モジュール、デュアルレベルID注入モジュール、ID対応デカップリングモジュールの3つの主要なコンポーネントを備えており、単一の参照イメージとテキストプロンプトから任意のオブジェクトをカスタマイズできる。
CustAnyは、一般的なオブジェクトのカスタマイズと、人間のカスタマイズや仮想トライオンのような特殊なドメインの両方において、既存のメソッドよりも優れています。
当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
コードとデータセットは、https://github.com/LingjieKong-fdu/CustAnyで間もなくリリースされる。
関連論文リスト
- DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization [10.760799194716922]
UniPortraitは、シングルIDとマルチIDのカスタマイズを統一する革新的なヒューマンイメージパーソナライズフレームワークである。
UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールの2つのプラグイン・アンド・プレイモジュールで構成されている。
論文 参考訳(メタデータ) (2024-08-12T06:27:29Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Conditional Cross Attention Network for Multi-Space Embedding without
Entanglement in Only a SINGLE Network [1.8899300124593648]
本研究では,複数の特定の属性に対して,単一のバックボーンのみを交叉する多空間埋め込みを誘導する条件付きクロスアテンションネットワークを提案する。
提案手法は,FashionAI,DARN,DeepFashion,Zappos50Kベンチマークデータセット上で一貫した最先端性能を実現した。
論文 参考訳(メタデータ) (2023-07-25T04:48:03Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models [37.36999826208225]
本稿では,ゼロショット・イン・ディストリビューション(ID)検出と呼ばれる新しい問題設定を提案する。
我々は、IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し、IDオブジェクトを持たないイメージをOODイメージとしてトレーニングせずに識別する。
本稿では,CLIP機能のグローバルおよびローカルな視覚テキストアライメントに基づく,シンプルで効果的な概念マッチング手法であるGlobal-Local Concept Matchingを提案する。
論文 参考訳(メタデータ) (2023-04-10T11:35:42Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。