論文の概要: Customization Assistant for Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2312.03045v2
- Date: Wed, 8 May 2024 21:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 18:09:14.976663
- Title: Customization Assistant for Text-to-image Generation
- Title(参考訳): テキスト・画像生成のためのカスタマイズアシスタント
- Authors: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Tong Sun,
- Abstract要約: 本稿では,新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。
得られたアシスタントは、テストタイムを微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。
- 参考スコア(独自算出の注目度): 40.76198867803018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customizing pre-trained text-to-image generation model has attracted massive research interest recently, due to its huge potential in real-world applications. Although existing methods are able to generate creative content for a novel concept contained in single user-input image, their capability are still far from perfection. Specifically, most existing methods require fine-tuning the generative model on testing images. Some existing methods do not require fine-tuning, while their performance are unsatisfactory. Furthermore, the interaction between users and models are still limited to directive and descriptive prompts such as instructions and captions. In this work, we build a customization assistant based on pre-trained large language model and diffusion model, which can not only perform customized generation in a tuning-free manner, but also enable more user-friendly interactions: users can chat with the assistant and input either ambiguous text or clear instruction. Specifically, we propose a new framework consists of a new model design and a novel training strategy. The resulting assistant can perform customized generation in 2-5 seconds without any test time fine-tuning. Extensive experiments are conducted, competitive results have been obtained across different domains, illustrating the effectiveness of the proposed method.
- Abstract(参考訳): トレーニング済みのテキスト・ツー・イメージ生成モデルのカスタマイズは、現実世界のアプリケーションにおいて大きな可能性を秘めているため、近年、大きな研究の関心を集めている。
既存の手法では、単一のユーザ入力画像に含まれる新しい概念のためのクリエイティブなコンテンツを生成することができるが、その能力は完璧には程遠い。
具体的には、既存のほとんどの手法では、画像のテストにおいて生成モデルを微調整する必要がある。
既存のメソッドでは微調整は必要ありませんが、パフォーマンスは不満足です。
さらに、ユーザとモデル間のインタラクションは、命令やキャプションなどの指示的および記述的なプロンプトに制限されている。
本研究では,事前訓練された大規模言語モデルと拡散モデルに基づくカスタマイズアシスタントを構築し,チューニング不要な方法でカスタマイズされた生成を行うだけでなく,ユーザフレンドリなインタラクションを可能にする。
具体的には、新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。
得られたアシスタントは、テストタイムを微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。
大規模な実験を行い, 提案手法の有効性を実証し, 異なる領域にわたる競争結果を得た。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Training-free Editioning of Text-to-Image Models [47.32550822603952]
テキスト・ツー・イメージ・モデルのための新しいタスク、すなわち、トレーニング不要のエディションを提案する。
我々は,リトレーニングを伴わずに,ベースとなるテキスト・ツー・イメージモデルのバリエーションを作成することを目的としている。
提案したエディションのパラダイムにより、サービスプロバイダはベースモデルを"cat edition"にカスタマイズすることができます。
論文 参考訳(メタデータ) (2024-05-27T11:40:50Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。