論文の概要: PromptCharm: Text-to-Image Generation through Multi-modal Prompting and
Refinement
- arxiv url: http://arxiv.org/abs/2403.04014v1
- Date: Wed, 6 Mar 2024 19:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:06:01.253468
- Title: PromptCharm: Text-to-Image Generation through Multi-modal Prompting and
Refinement
- Title(参考訳): PromptCharm:マルチモーダルプロンプトとリファインメントによるテキスト・ツー・イメージ生成
- Authors: Zhijie Wang, Yuheng Huang, Da Song, Lei Ma, Tianyi Zhang
- Abstract要約: PromptCharmは,マルチモーダル・プロンプト・エンジニアリングと改良によるテキスト・ツー・イメージ作成を容易にするシステムである。
PromptCharmは、ユーザーの初期プロンプトを自動的に洗練し、最適化する。
大規模なデータベース内で、さまざまなイメージスタイルを探索し、選択するのをサポートする。
モデルの注意値を視覚化することで、モデル説明を描画する。
- 参考スコア(独自算出の注目度): 12.55886762028225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in Generative AI have significantly advanced the
field of text-to-image generation. The state-of-the-art text-to-image model,
Stable Diffusion, is now capable of synthesizing high-quality images with a
strong sense of aesthetics. Crafting text prompts that align with the model's
interpretation and the user's intent thus becomes crucial. However, prompting
remains challenging for novice users due to the complexity of the stable
diffusion model and the non-trivial efforts required for iteratively editing
and refining the text prompts. To address these challenges, we propose
PromptCharm, a mixed-initiative system that facilitates text-to-image creation
through multi-modal prompt engineering and refinement. To assist novice users
in prompting, PromptCharm first automatically refines and optimizes the user's
initial prompt. Furthermore, PromptCharm supports the user in exploring and
selecting different image styles within a large database. To assist users in
effectively refining their prompts and images, PromptCharm renders model
explanations by visualizing the model's attention values. If the user notices
any unsatisfactory areas in the generated images, they can further refine the
images through model attention adjustment or image inpainting within the rich
feedback loop of PromptCharm. To evaluate the effectiveness and usability of
PromptCharm, we conducted a controlled user study with 12 participants and an
exploratory user study with another 12 participants. These two studies show
that participants using PromptCharm were able to create images with higher
quality and better aligned with the user's expectations compared with using two
variants of PromptCharm that lacked interaction or visualization support.
- Abstract(参考訳): 最近の生成aiの進歩は、テキスト対画像生成の分野を大きく進歩させた。
最先端のテキスト・画像モデルであるStable Diffusionは、美学の強い感覚で高品質な画像の合成が可能になった。
モデルの解釈に合致するテキストプロンプトを作成することで、ユーザの意図が決定的に重要になります。
しかし,安定拡散モデルの複雑さとテキストプロンプトの反復編集・精細化に必要な非自明な努力により,初心者ユーザにとってプロンプトは依然として困難である。
これらの課題に対処するため,我々は,マルチモーダルプロンプトエンジニアリングとリファインメントによるテキスト対画像生成を容易にする混合イニシアティブシステムpromptencharmを提案する。
初心者のプロンプトを補助するために、PromptCharmはユーザーの初期プロンプトを自動的に洗練し最適化する。
さらに PromptCharm は,大規模データベース内のさまざまなイメージスタイルの探索と選択をサポートする。
ユーザがプロンプトとイメージを効果的に洗練できるようにするため、promptcharmはモデルの注意値を視覚化してモデル説明をレンダリングする。
ユーザが生成した画像の満足できない領域に気付くと、PromptCharmのリッチなフィードバックループ内で、モデルアテンション調整やイメージインペインティングを通じて、さらに画像を洗練することができる。
PromptCharmの有効性とユーザビリティを評価するため,12名の被験者による制御されたユーザスタディと,12名の参加者による探索的ユーザスタディを行った。
これらの2つの研究は、PromptCharmを使用する参加者が、対話や視覚化のサポートが欠如している2種類のPromptCharmを使用する場合と比較して、高品質でユーザの期待に合致した画像を作成することができたことを示している。
関連論文リスト
- A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - NeuroPrompts: An Adaptive Framework to Optimize Prompts for
Text-to-Image Generation [4.21512101973222]
NeuroPromptsは、テキスト・ツー・イメージモデルによって生成される世代の品質を改善するためのユーザのプロンプトを強化する適応的なフレームワークである。
我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。
論文 参考訳(メタデータ) (2023-11-20T22:57:47Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。