Fugu-MT 論文翻訳(概要): PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation

論文の概要: PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation

arxiv url: http://arxiv.org/abs/2307.09036v2
Date: Tue, 15 Aug 2023 09:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 16:08:28.680291
Title: PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation
Title（参考訳）: promptmagician: テキストから画像へのインタラクティブなプロンプトエンジニアリング
Authors: Yingchaojie Feng, Xingbo Wang, Kam Kwai Wong, Sijia Wang, Yuhong Lu, Minfeng Zhu, Baicheng Wang, Wei Chen
Abstract要約: 本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
参考スコア（独自算出の注目度）: 16.41459454076984
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative text-to-image models have gained great popularity among the public for their powerful capability to generate high-quality images based on natural language prompts. However, developing effective prompts for desired images can be challenging due to the complexity and ambiguity of natural language. This research proposes PromptMagician, a visual analysis system that helps users explore the image results and refine the input prompts. The backbone of our system is a prompt recommendation model that takes user prompts as input, retrieves similar prompt-image pairs from DiffusionDB, and identifies special (important and relevant) prompt keywords. To facilitate interactive prompt refinement, PromptMagician introduces a multi-level visualization for the cross-modal embedding of the retrieved images and recommended keywords, and supports users in specifying multiple criteria for personalized exploration. Two usage scenarios, a user study, and expert interviews demonstrate the effectiveness and usability of our system, suggesting it facilitates prompt engineering and improves the creativity support of the generative text-to-image model.
Abstract（参考訳）: 自然言語プロンプトに基づいた高品質な画像を生成する能力によって、生成型テキストから画像へのモデルが大衆に人気を集めている。しかし、自然言語の複雑さとあいまいさのため、望ましい画像に対する効果的なプロンプトの開発は困難である。本研究では,画像結果の探索と入力プロンプトの洗練を支援する視覚解析システムpromptmagicianを提案する。システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連する)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。インタラクティブなプロンプトリファインメントを容易にするために、prompcipalmagicianは、検索された画像と推奨キーワードのクロスモーダル埋め込みのためのマルチレベル可視化を導入し、パーソナライズされた探索のための複数の基準を指定するユーザをサポートする。ユーザスタディとエキスパートインタビューの2つの利用シナリオは,システムの有効性とユーザビリティを実証し,迅速なエンジニアリングを促進し,生成テキスト・画像モデルの創造的サポートを改善することを示唆している。

関連論文リスト

VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-29T08:24:39Z)
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-05-23T06:44:26Z)
Has My System Prompt Been Used? Large Language Model Prompt Membership Inference [56.20586932251531]
Prompt Detectiveは,システムプロンプトがサードパーティの言語モデルによって使用されているかどうかを確実に判断する統計手法である。我々の研究は、システムの小さな変更でさえ、異なる応答分布に現れ、統計的に意味のある迅速な使用を検証できることを明らかにした。
論文参考訳（メタデータ） (2025-02-14T08:00:42Z)
Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [50.714983524814606]
現在の画像生成システムは高品質な画像を生成するが、曖昧なユーザープロンプトに苦慮している。ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。
論文参考訳（メタデータ） (2025-01-25T10:32:00Z)
Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。 PRIPは精細化処理を2つのデータリッチなタスクに分解する。これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文参考訳（メタデータ） (2024-06-28T22:19:24Z)
Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement [12.55886762028225]
PromptCharmは,マルチモーダル・プロンプト・エンジニアリングと改良によるテキスト・ツー・イメージ作成を容易にするシステムである。 PromptCharmは、ユーザーの初期プロンプトを自動的に洗練し、最適化する。大規模なデータベース内で、さまざまなイメージスタイルを探索し、選択するのをサポートする。モデルの注意値を視覚化することで、モデル説明を描画する。
論文参考訳（メタデータ） (2024-03-06T19:55:01Z)
Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。 Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文参考訳（メタデータ） (2023-12-27T21:12:21Z)
The Contemporary Art of Image Search: Iterative User Intent Expansion via Vision-Language Model [4.531548217880843]
画像検索のための革新的なユーザ意図拡張フレームワークを提案する。本フレームワークは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成する。提案フレームワークは,ユーザの画像検索体験を大幅に改善する。
論文参考訳（メタデータ） (2023-12-04T06:14:25Z)
NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation [4.21512101973222]
NeuroPromptsは、テキスト・ツー・イメージモデルによって生成される世代の品質を改善するためのユーザのプロンプトを強化する適応的なフレームワークである。我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。
論文参考訳（メタデータ） (2023-11-20T22:57:47Z)
MultiPrompter: Cooperative Prompt Optimization with Multi-Agent Reinforcement Learning [68.40755873520808]
MultiPrompterは、プロンプト最適化をプロンプト間の協調ゲームと見なす新しいフレームワークである。我々は,MultiPrompterが問題のサイズを効果的に減らし,プロンプトを最適に学習するのに役立つことを示す。
論文参考訳（メタデータ） (2023-10-25T15:58:51Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
Promptify: Text-to-Image Generation through Interactive Prompt Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文参考訳（メタデータ） (2023-04-18T22:59:11Z)
Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文参考訳（メタデータ） (2022-12-19T16:50:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。