論文の概要: FaceChain-SuDe: Building Derived Class to Inherit Category Attributes
for One-shot Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2403.06775v1
- Date: Mon, 11 Mar 2024 14:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:43:48.451087
- Title: FaceChain-SuDe: Building Derived Class to Inherit Category Attributes
for One-shot Subject-Driven Generation
- Title(参考訳): FaceChain-SuDe: ワンショットの主観駆動生成のためのカテゴリ属性を継承する派生クラスを構築する
- Authors: Pengchong Qiao, Lei Shang, Chang Liu, Baigui Sun, Xiangyang Ji, Jie
Chen
- Abstract要約: 本稿では,プラグイン・アンド・プレイ方式,主観的正規化(SuDe)を提案する。
被写体が生成した画像が意味論的に被写体カテゴリーに属することを制約することにより、ベースから派生したクラスモデリングを構築する。
実験の結果,SuDeは主観的忠実さを維持しつつ,想像上の属性関連世代を可能にすることがわかった。
- 参考スコア(独自算出の注目度): 52.48012793898401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-driven generation has garnered significant interest recently due to
its ability to personalize text-to-image generation. Typical works focus on
learning the new subject's private attributes. However, an important fact has
not been taken seriously that a subject is not an isolated new concept but
should be a specialization of a certain category in the pre-trained model. This
results in the subject failing to comprehensively inherit the attributes in its
category, causing poor attribute-related generations. In this paper, motivated
by object-oriented programming, we model the subject as a derived class whose
base class is its semantic category. This modeling enables the subject to
inherit public attributes from its category while learning its private
attributes from the user-provided example. Specifically, we propose a
plug-and-play method, Subject-Derived regularization (SuDe). It constructs the
base-derived class modeling by constraining the subject-driven generated images
to semantically belong to the subject's category. Extensive experiments under
three baselines and two backbones on various subjects show that our SuDe
enables imaginative attribute-related generations while maintaining subject
fidelity. Codes will be open sourced soon at FaceChain
(https://github.com/modelscope/facechain).
- Abstract(参考訳): 近年、テキスト対画像生成のパーソナライズ機能により、主題駆動生成が大きな関心を集めている。
典型的な作品は、新しい主題の個人的な属性を学ぶことに焦点を当てている。
しかしながら、対象が孤立した新しい概念ではなく、事前訓練されたモデルにおける特定のカテゴリーの特殊化であるべきという重要な事実は、真に捉えられていない。
その結果、対象者はカテゴリの属性を包括的に継承できず、属性関連世代が貧弱になる。
本稿では,オブジェクト指向プログラミングに動機づけられた基本クラスが意味圏である派生クラスとして対象をモデル化する。
このモデリングにより、被験者はそのカテゴリからパブリック属性を継承し、ユーザが提供する例からプライベート属性を学習することができる。
具体的には,プラグイン・アンド・プレイ方式であるSubject-Derived regularization (SuDe)を提案する。
被写体駆動生成画像が被写体のカテゴリに意味的に属すように制約することにより、基底となるクラスモデリングを構築する。
3つのベースラインと2つのバックボーンによる広範囲な実験により、SuDeは、被験者の忠実さを維持しながら、想像上の属性関連世代を可能にした。
コードはまもなくFaceChain(https://github.com/modelscope/facechain)でオープンソース化される。
関連論文リスト
- PersonificationNet: Making customized subject act like a person [39.359589723267696]
本稿では,マンガのキャラクターやぬいぐるみなどの特定の主題を制御し,参照した人物のイメージと同じポーズをすることができるペルソナライズネットを提案する。
第1に、カスタマイズされたブランチは、特定対象の外観を模倣し、第2に、ポーズ条件ブランチは、人から変種インスタンスへ身体構造情報を転送し、最後に、推測段階において、人と特定対象の間の構造ギャップを橋渡しする。
論文 参考訳(メタデータ) (2024-07-12T07:27:07Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with
Prototypical Embedding [7.893308498886083]
提案手法は,オブジェクト駆動方式で一般化性と忠実性の課題に対処することを目的としている。
原型埋め込みは、拡散モデルを微調整する前に、オブジェクトの外観とそのクラスに基づいている。
我々の手法は、いくつかの既存の作業より優れています。
論文 参考訳(メタデータ) (2024-01-28T17:11:42Z) - DreamTuner: Single Image is Enough for Subject-Driven Generation [16.982780785747202]
拡散に基づくモデルは、テキスト・画像生成の優れた機能を示している。
しかし、微調整に基づく既存の手法は、対象学習と事前学習モデルの生成能力の維持のトレードオフをバランスづけることができない。
本研究では,より効果的に被写体駆動画像生成を実現するために,粗い情報から細かな情報に参照情報を注入する新しい手法であるDreamTurnerを提案する。
論文 参考訳(メタデータ) (2023-12-21T09:37:14Z) - Rethinking Person Re-identification from a Projection-on-Prototypes
Perspective [84.24742313520811]
検索タスクとしてのPerson Re-IDentification(Re-ID)は,過去10年間で大きな発展を遂げてきた。
本稿では,新しいベースライン ProNet を提案する。
4つのベンチマークの実験では、提案したProNetは単純だが有効であり、以前のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-08-21T13:38:10Z) - Subject-driven Text-to-Image Generation via Apprenticeship Learning [83.88256453081607]
本研究では,テキスト・トゥ・イメージ・ジェネレータのSuTIについて述べる。
SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。
SuTIは、InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothといった既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-04-01T00:47:35Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Modelling Monotonic and Non-Monotonic Attribute Dependencies with
Embeddings: A Theoretical Analysis [33.385069975038746]
本稿では,異なる埋め込み戦略の理論的限界について考察する。
最初に、いくつかのネガティブな結果を示し、最も人気のある埋め込みモデルの中には、基礎的なホーンルールさえもキャプチャできないものもあることを明らかにした。
また、いくつかの埋め込み戦略は、原則としてモノトニックな属性と非モノトニックな属性の依存関係の両方をモデル化することができる。
論文 参考訳(メタデータ) (2021-06-28T07:29:11Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。