論文の概要: PromptCharm: Text-to-Image Generation through Multi-modal Prompting and
Refinement
- arxiv url: http://arxiv.org/abs/2403.04014v1
- Date: Wed, 6 Mar 2024 19:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:06:01.253468
- Title: PromptCharm: Text-to-Image Generation through Multi-modal Prompting and
Refinement
- Title(参考訳): PromptCharm:マルチモーダルプロンプトとリファインメントによるテキスト・ツー・イメージ生成
- Authors: Zhijie Wang, Yuheng Huang, Da Song, Lei Ma, Tianyi Zhang
- Abstract要約: PromptCharmは,マルチモーダル・プロンプト・エンジニアリングと改良によるテキスト・ツー・イメージ作成を容易にするシステムである。
PromptCharmは、ユーザーの初期プロンプトを自動的に洗練し、最適化する。
大規模なデータベース内で、さまざまなイメージスタイルを探索し、選択するのをサポートする。
モデルの注意値を視覚化することで、モデル説明を描画する。
- 参考スコア(独自算出の注目度): 12.55886762028225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in Generative AI have significantly advanced the
field of text-to-image generation. The state-of-the-art text-to-image model,
Stable Diffusion, is now capable of synthesizing high-quality images with a
strong sense of aesthetics. Crafting text prompts that align with the model's
interpretation and the user's intent thus becomes crucial. However, prompting
remains challenging for novice users due to the complexity of the stable
diffusion model and the non-trivial efforts required for iteratively editing
and refining the text prompts. To address these challenges, we propose
PromptCharm, a mixed-initiative system that facilitates text-to-image creation
through multi-modal prompt engineering and refinement. To assist novice users
in prompting, PromptCharm first automatically refines and optimizes the user's
initial prompt. Furthermore, PromptCharm supports the user in exploring and
selecting different image styles within a large database. To assist users in
effectively refining their prompts and images, PromptCharm renders model
explanations by visualizing the model's attention values. If the user notices
any unsatisfactory areas in the generated images, they can further refine the
images through model attention adjustment or image inpainting within the rich
feedback loop of PromptCharm. To evaluate the effectiveness and usability of
PromptCharm, we conducted a controlled user study with 12 participants and an
exploratory user study with another 12 participants. These two studies show
that participants using PromptCharm were able to create images with higher
quality and better aligned with the user's expectations compared with using two
variants of PromptCharm that lacked interaction or visualization support.
- Abstract(参考訳): 最近の生成aiの進歩は、テキスト対画像生成の分野を大きく進歩させた。
最先端のテキスト・画像モデルであるStable Diffusionは、美学の強い感覚で高品質な画像の合成が可能になった。
モデルの解釈に合致するテキストプロンプトを作成することで、ユーザの意図が決定的に重要になります。
しかし,安定拡散モデルの複雑さとテキストプロンプトの反復編集・精細化に必要な非自明な努力により,初心者ユーザにとってプロンプトは依然として困難である。
これらの課題に対処するため,我々は,マルチモーダルプロンプトエンジニアリングとリファインメントによるテキスト対画像生成を容易にする混合イニシアティブシステムpromptencharmを提案する。
初心者のプロンプトを補助するために、PromptCharmはユーザーの初期プロンプトを自動的に洗練し最適化する。
さらに PromptCharm は,大規模データベース内のさまざまなイメージスタイルの探索と選択をサポートする。
ユーザがプロンプトとイメージを効果的に洗練できるようにするため、promptcharmはモデルの注意値を視覚化してモデル説明をレンダリングする。
ユーザが生成した画像の満足できない領域に気付くと、PromptCharmのリッチなフィードバックループ内で、モデルアテンション調整やイメージインペインティングを通じて、さらに画像を洗練することができる。
PromptCharmの有効性とユーザビリティを評価するため,12名の被験者による制御されたユーザスタディと,12名の参加者による探索的ユーザスタディを行った。
これらの2つの研究は、PromptCharmを使用する参加者が、対話や視覚化のサポートが欠如している2種類のPromptCharmを使用する場合と比較して、高品質でユーザの期待に合致した画像を作成することができたことを示している。
関連論文リスト
- Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。
PRIPは精細化処理を2つのデータリッチなタスクに分解する。
これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文 参考訳(メタデータ) (2024-06-28T22:19:24Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation [4.21512101973222]
NeuroPromptsは、テキスト・ツー・イメージモデルによって生成される世代の品質を改善するためのユーザのプロンプトを強化する適応的なフレームワークである。
我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。
論文 参考訳(メタデータ) (2023-11-20T22:57:47Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。