論文の概要: PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative
Dialogue with LLM
- arxiv url: http://arxiv.org/abs/2307.08985v1
- Date: Tue, 18 Jul 2023 05:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:20:44.160771
- Title: PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative
Dialogue with LLM
- Title(参考訳): PromptCrafter: LLMとの対話によるテキストから画像へのプロンプト作成
- Authors: Seungho Baek, Hyerin Im, Jiseung Ryu, Juhyeong Park, Takyeon Lee
- Abstract要約: 本稿では,テキスト・ツー・イメージ・プロンプトのステップ・バイ・ステップ作成を可能にする新しい混合開始システムであるPromptCrafterを紹介する。
反復的なプロセスを通じて、ユーザーはモデルの能力を効率的に探求し、その意図を明らかにすることができる。
PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。
- 参考スコア(独自算出の注目度): 2.2894985490441377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation model is able to generate images across a diverse
range of subjects and styles based on a single prompt. Recent works have
proposed a variety of interaction methods that help users understand the
capabilities of models and utilize them. However, how to support users to
efficiently explore the model's capability and to create effective prompts are
still open-ended research questions. In this paper, we present PromptCrafter, a
novel mixed-initiative system that allows step-by-step crafting of
text-to-image prompt. Through the iterative process, users can efficiently
explore the model's capability, and clarify their intent. PromptCrafter also
supports users to refine prompts by answering various responses to clarifying
questions generated by a Large Language Model. Lastly, users can revert to a
desired step by reviewing the work history. In this workshop paper, we discuss
the design process of PromptCrafter and our plans for follow-up studies.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、1つのプロンプトに基づいて様々な主題やスタイルの画像を生成できる。
近年の研究では,ユーザがモデルの能力を理解し,活用するための様々なインタラクション手法が提案されている。
しかし、モデルの性能を効率的に探索し、効果的なプロンプトを作成するためにユーザを支援する方法はまだオープンな研究課題である。
本稿では,テキストから画像へのプロンプトをステップバイステップで作成可能な,新しい混合入力システムpromptedcrafterを提案する。
反復的なプロセスを通じて、ユーザーは効率的にモデルの能力を探索し、意図を明らかにすることができる。
PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。
最後に、ユーザーは作業履歴をレビューすることで、望ましいステップに戻すことができる。
本稿では,PromptCrafterの設計プロセスとフォローアップ研究の計画について論じる。
関連論文リスト
- Exploring Prompt Engineering Practices in the Enterprise [3.7882262667445734]
プロンプト(英: prompt)は、モデルから特定の振る舞いや出力を引き出すように設計された自然言語命令である。
特定の要求のある複雑なタスクやタスクに対して、迅速な設計は簡単ではない。
我々は、プロンプト編集行動のセッションを分析し、ユーザが反復したプロンプトの一部と、それらが行った変更の種類を分類する。
論文 参考訳(メタデータ) (2024-03-13T20:32:32Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Customization Assistant for Text-to-image Generation [40.76198867803018]
本稿では,新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。
得られたアシスタントは、テストタイムを微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。
論文 参考訳(メタデータ) (2023-12-05T16:54:42Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Frugal Prompting for Dialog Models [17.048111072193933]
本研究では,大規模言語モデル(LLM)を用いた対話システム構築のための異なるアプローチについて検討する。
即時チューニングの一環として、インストラクション、例題、現在のクエリ、追加のコンテキストを提供する様々な方法を試行する。
この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。
論文 参考訳(メタデータ) (2023-05-24T09:06:49Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Towards Large-Scale Interpretable Knowledge Graph Reasoning for Dialogue
Systems [109.16553492049441]
よりスケーラブルで一般化可能な対話システムに知識推論機能を組み込む新しい手法を提案する。
我々の知識を最大限に活用するために、変圧器モデルが微分可能な知識グラフを解析して応答を生成するのは、これが初めてである。
論文 参考訳(メタデータ) (2022-03-20T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。