論文の概要: A Prompt Log Analysis of Text-to-Image Generation Systems
- arxiv url: http://arxiv.org/abs/2303.04587v1
- Date: Wed, 8 Mar 2023 13:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:55:47.134597
- Title: A Prompt Log Analysis of Text-to-Image Generation Systems
- Title(参考訳): テキスト・画像生成システムのプロンプトログ解析
- Authors: Yutong Xie, Zhaoying Pan, Jinge Ma, Jie Luo, Qiaozhu Mei
- Abstract要約: 我々は,3つの人気テキスト・画像システムに対して,200万以上のユーザ・インプットプロンプトを大規模に分析する。
本研究の目的は,テキスト・画像生成システムの構築方法に関する具体的な考察である。
- 参考スコア(独自算出の注目度): 16.475020581885992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in diffusion models have unleashed the astonishing
capabilities of text-to-image generation systems to synthesize high-quality
images that are faithful to a given reference text, known as a "prompt." These
systems, once released to the public, have immediately received tons of
attention from researchers, creators, and common users. Despite the plenty of
efforts to improve the underneath generative models, there is limited work on
understanding the information needs of the real users of these systems, e.g.,
by investigating the prompts the users input at scale. In this paper, we take
the initiative to conduct a comprehensive analysis of large-scale prompt logs
collected from multiple text-to-image generation systems. Our work is analogous
to analyzing the query log of Web search engines, a line of work that has made
critical contributions to the glory of the Web search industry and research. We
analyze over two million user-input prompts submitted to three popular
text-to-image systems at scale. Compared to Web search queries, text-to-image
prompts are significantly longer, often organized into unique structures, and
present different categories of information needs. Users tend to make more
edits within creation sessions, showing remarkable exploratory patterns. Our
findings provide concrete implications on how to improve text-to-image
generation systems for creation purposes.
- Abstract(参考訳): 近年の拡散モデルの発展は、与えられた参照テキストに忠実な高品質な画像を合成するテキスト対画像生成システムの驚くべき能力を解き放ち、"prompt"として知られる。
これらのシステムはかつて一般公開されたが、すぐに研究者、クリエイター、一般ユーザーから多くの注目を集めた。
下位生成モデルを改善する努力はたくさんあるが、例えば、ユーザが大規模に入力したプロンプトを調べることで、これらのシステムの実際のユーザの情報ニーズを理解する作業は限られている。
本稿では,複数のテキスト対画像生成システムから収集した大規模プロンプトログの包括的解析を行う。
我々の研究は、Web検索産業と研究の栄光に重要な貢献をした一連の研究であるWeb検索エンジンのクエリログの分析に類似している。
我々は,200万以上のユーザ入力プロンプトを大規模に解析した。
web検索クエリと比較して、テキストから画像へのプロンプトは大幅に長く、しばしばユニークな構造に編成され、異なる種類の情報を必要とする。
ユーザーは作成セッション内でより多くの編集を行う傾向があり、顕著な探索パターンを示す。
本研究は,テキスト対画像生成システムの改善方法に関する具体的な知見を提供する。
関連論文リスト
- Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - The Contemporary Art of Image Search: Iterative User Intent Expansion
via Vision-Language Model [4.531548217880843]
画像検索のための革新的なユーザ意図拡張フレームワークを提案する。
本フレームワークは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成する。
提案フレームワークは,ユーザの画像検索体験を大幅に改善する。
論文 参考訳(メタデータ) (2023-12-04T06:14:25Z) - The role of interface design on prompt-mediated creativity in Generative
AI [0.0]
2つのジェネレーティブAIプラットフォームから145,000以上のプロンプトを分析します。
その結果,利用者は以前訪れた概念の活用よりも,新たなトピックを探求する傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-11-30T22:33:34Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。