論文の概要: Customization Assistant for Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2312.03045v1
- Date: Tue, 5 Dec 2023 16:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:18:07.901810
- Title: Customization Assistant for Text-to-image Generation
- Title(参考訳): テキスト対画像生成のためのカスタマイズアシスタント
- Authors: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Tong Sun
- Abstract要約: 本稿では,新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。
得られたアシスタントは、テストタイムを微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。
- 参考スコア(独自算出の注目度): 44.5295443094473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customizing pre-trained text-to-image generation model has attracted massive
research interest recently, due to its huge potential in real-world
applications. Although existing methods are able to generate creative content
for a novel concept contained in single user-input image, their capability are
still far from perfection. Specifically, most existing methods require
fine-tuning the generative model on testing images. Some existing methods do
not require fine-tuning, while their performance are unsatisfactory.
Furthermore, the interaction between users and models are still limited to
directive and descriptive prompts such as instructions and captions. In this
work, we build a customization assistant based on pre-trained large language
model and diffusion model, which can not only perform customized generation in
a tuning-free manner, but also enable more user-friendly interactions: users
can chat with the assistant and input either ambiguous text or clear
instruction. Specifically, we propose a new framework consists of a new model
design and a novel training strategy. The resulting assistant can perform
customized generation in 2-5 seconds without any test time fine-tuning.
Extensive experiments are conducted, competitive results have been obtained
across different domains, illustrating the effectiveness of the proposed
method.
- Abstract(参考訳): トレーニング済みのテキスト・ツー・イメージ生成モデルのカスタマイズは、現実世界のアプリケーションにおいて大きな可能性を秘めているため、近年、大きな研究関心を集めている。
既存の手法では、単一のユーザ入力画像に含まれる新しい概念のためのクリエイティブなコンテンツを生成することができるが、その能力は完璧には程遠い。
特に、既存の方法の多くは、画像のテストにおいて生成モデルを微調整する必要がある。
既存のメソッドは微調整を必要としないが、パフォーマンスは不十分である。
さらに、ユーザとモデル間のインタラクションは、指示やキャプションといった指示的および記述的プロンプトに限定されている。
本研究では,事前訓練された大規模言語モデルと拡散モデルに基づくカスタマイズアシスタントを構築し,チューニング不要な方法でカスタマイズされた生成を行うだけでなく,ユーザフレンドリなインタラクションを可能にする。
具体的には,新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。
得られたアシスタントは、テスト時間を微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。
大規模な実験を行い, 提案手法の有効性を実証し, 異なる領域にわたる競争結果を得た。
関連論文リスト
- DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z) - Training-Free Consistent Text-to-Image Generation [84.51727853278007]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Generating Illustrated Instructions [46.769070292654575]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z) - InstantBooth: Personalized Text-to-Image Generation without Test-Time
Finetuning [20.127745565621616]
InstantBoothは、事前訓練されたテキスト・ツー・イメージモデルに基づく新しいアプローチである。
本モデルでは,言語画像のアライメント,画像の忠実度,アイデンティティの保存に関する未確認概念に関する競合的な結果を生成することができる。
論文 参考訳(メタデータ) (2023-04-06T23:26:38Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。