論文の概要: DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via
Contrastive Prompt-Tuning
- arxiv url: http://arxiv.org/abs/2211.11337v1
- Date: Mon, 21 Nov 2022 10:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:47:22.320946
- Title: DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via
Contrastive Prompt-Tuning
- Title(参考訳): dreamartist: コントラスト的プロンプトチューニングによるワンショットテキスト対画像生成に向けて
- Authors: Ziyi Dong, Pengxu Wei, Liang Lin
- Abstract要約: 大規模なテキスト画像生成モデルでは,テキストガイダンスに基づいて高解像度,高機能,高画質の画像を合成することができる。
しかし、新しい概念、スタイル、または常に現れるオブジェクトエンティティの言葉に圧倒されることが多い。
本研究では,コントラスト的即興学習の学習戦略を用いたDreamArtist手法を提案する。
- 参考スコア(独自算出の注目度): 85.10894272034135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image generation models with an exponential evolution can
currently synthesize high-resolution, feature-rich, high-quality images based
on text guidance. However, they are often overwhelmed by words of new concepts,
styles, or object entities that always emerge. Although there are some recent
attempts to use fine-tuning or prompt-tuning methods to teach the model a new
concept as a new pseudo-word from a given reference image set, these methods
are not only still difficult to synthesize diverse and high-quality images
without distortion and artifacts, but also suffer from low controllability.
To address these problems, we propose a DreamArtist method that employs a
learning strategy of contrastive prompt-tuning, which introduces both positive
and negative embeddings as pseudo-words and trains them jointly. The positive
embedding aggressively learns characteristics in the reference image to drive
the model diversified generation, while the negative embedding introspects in a
self-supervised manner to rectify the mistakes and inadequacies from positive
embedding in reverse. It learns not only what is correct but also what should
be avoided. Extensive experiments on image quality and diversity analysis,
controllability analysis, model learning analysis and task expansion have
demonstrated that our model learns not only concept but also form, content and
context. Pseudo-words of DreamArtist have similar properties as true words to
generate high-quality images.
- Abstract(参考訳): 指数的進化を伴う大規模テキスト画像生成モデルは、現在テキストガイダンスに基づいて高解像度、高機能、高画質の画像を合成することができる。
しかし、新しい概念、スタイル、または常に現れるオブジェクトエンティティの言葉に圧倒されることが多い。
与えられた参照画像集合から新しい擬似語としてモデルに新しい概念を教えるために、微調整やプロンプトチューニングを用いた最近の試みがあるが、これらの手法は、歪曲やアーティファクトを伴わずに多様で高品質な画像を合成するのはまだ困難であるばかりでなく、制御性も低い。
これらの問題に対処するために,擬単語として正と負の埋め込みを導入し,それらを協調的に訓練する,コントラッシブ・プロンプトチューニングの学習戦略を用いたドリームアーティスト手法を提案する。
正の埋め込みは参照画像の特性を積極的に学習し、モデルを多様化させ、負の埋め込みは自己教師ありの方法で内省し、正の埋め込みから誤りや欠点を正す。
正しいことだけでなく、避けるべきことを学ぶ。
画像品質,多様性分析,可制御性解析,モデル学習分析,タスク拡張に関する大規模な実験により,我々のモデルは概念だけでなく,形態,内容,文脈も学習できることを示した。
ドリームアーティストの擬似語は、高品質な画像を生成する真の言葉と類似した性質を持つ。
関連論文リスト
- Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Inpaint Biases: A Pathway to Accurate and Unbiased Image Generation [0.0]
Inpaint Biasesフレームワークは,画像生成の精度を高めるために,ユーザ定義マスクとインペイント技術を利用する。
我々は,このフレームワークが生成した画像のユーザ意図に対する忠実度を大幅に改善し,モデルの作成能力を向上することを示す。
論文 参考訳(メタデータ) (2024-05-29T05:04:07Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。