論文の概要: Training-free Editioning of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2405.17069v1
- Date: Mon, 27 May 2024 11:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:42:27.318080
- Title: Training-free Editioning of Text-to-Image Models
- Title(参考訳): テキスト・ツー・イメージモデルの学習不要版作成
- Authors: Jinqi Wang, Yunfei Fu, Zhangcan Ding, Bailin Deng, Yu-Kun Lai, Yipeng Qin,
- Abstract要約: テキスト・ツー・イメージ・モデルのための新しいタスク、すなわち、トレーニング不要のエディションを提案する。
我々は,リトレーニングを伴わずに,ベースとなるテキスト・ツー・イメージモデルのバリエーションを作成することを目的としている。
提案したエディションのパラダイムにより、サービスプロバイダはベースモデルを"cat edition"にカスタマイズすることができます。
- 参考スコア(独自算出の注目度): 47.32550822603952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the software industry's practice of offering different editions or versions of a product tailored to specific user groups or use cases, we propose a novel task, namely, training-free editioning, for text-to-image models. Specifically, we aim to create variations of a base text-to-image model without retraining, enabling the model to cater to the diverse needs of different user groups or to offer distinct features and functionalities. To achieve this, we propose that different editions of a given text-to-image model can be formulated as concept subspaces in the latent space of its text encoder (e.g., CLIP). In such a concept subspace, all points satisfy a specific user need (e.g., generating images of a cat lying on the grass/ground/falling leaves). Technically, we apply Principal Component Analysis (PCA) to obtain the desired concept subspaces from representative text embedding that correspond to a specific user need or requirement. Projecting the text embedding of a given prompt into these low-dimensional subspaces enables efficient model editioning without retraining. Intuitively, our proposed editioning paradigm enables a service provider to customize the base model into its "cat edition" (or other editions) that restricts image generation to cats, regardless of the user's prompt (e.g., dogs, people, etc.). This introduces a new dimension for product differentiation, targeted functionality, and pricing strategies, unlocking novel business models for text-to-image generators. Extensive experimental results demonstrate the validity of our approach and its potential to enable a wide range of customized text-to-image model editions across various domains and applications.
- Abstract(参考訳): ソフトウェア産業が特定のユーザグループやユースケースに合わせて異なるエディションやバージョンの製品を提供するというプラクティスに触発されて、テキスト・ツー・イメージ・モデルのための新しいタスク、すなわち、トレーニング不要のエディションを提案する。
具体的には、リトレーニングなしでベーステキスト・ツー・イメージモデルのバリエーションを作成することを目的としており、モデルがさまざまなユーザ・グループのニーズに応えたり、異なる機能や機能を提供したりすることを可能にする。
そこで本研究では,テキストエンコーダ(例えばCLIP)の潜在空間における概念部分空間として,与えられたテキスト・ツー・イメージモデルの異なるエディションを定式化できることを提案する。
このような概念のサブスペースでは、すべてのポイントが特定のユーザニーズを満たす(例えば、草/地面/落ち葉に横たわる猫の画像を生成する)。
技術的には、特定のユーザニーズや要求に対応する代表テキスト埋め込みから所望のコンセプト部分空間を得るために、主成分分析(PCA)を適用する。
与えられたプロンプトのテキストをこれらの低次元部分空間に投影することで、再トレーニングなしに効率的なモデル版作成が可能になる。
直感的には、提案したエディションのパラダイムにより、サービスプロバイダは、ユーザのプロンプト(例えば、犬、人など)に関係なく、画像生成を猫に制限する"cat edition"(または他のエディション)にベースモデルをカスタマイズすることができます。
これは、製品分化、ターゲット機能、価格戦略のための新しい次元を導入し、テキストから画像へのジェネレータのための新しいビジネスモデルをアンロックする。
広範にわたる実験結果から,本手法の有効性と,様々なドメインやアプリケーションにまたがるカスタマイズされたテキスト・ツー・イメージ・モデル版の実現の可能性が示された。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Customization Assistant for Text-to-image Generation [40.76198867803018]
本稿では,新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。
得られたアシスタントは、テストタイムを微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。
論文 参考訳(メタデータ) (2023-12-05T16:54:42Z) - Inserting Anybody in Diffusion Models via Celeb Basis [29.51292196851589]
本研究では,個別個人を事前学習した拡散モデルにシームレスに統合するパーソナライズ手法を提案する。
そこで我々はまず,事前学習した大文字エンコーダの埋め込み空間から,明確に定義されたセレブベースを解析・構築する。
提案したセレブベースを活用することで、カスタマイズされたモデルの新たなアイデンティティは、従来のパーソナライズ手法よりも優れた概念の組み合わせ能力を示す。
論文 参考訳(メタデータ) (2023-06-01T17:30:24Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。