論文の概要: Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate
Fairytales
- arxiv url: http://arxiv.org/abs/2302.08961v2
- Date: Fri, 25 Aug 2023 14:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:52:23.909557
- Title: Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate
Fairytales
- Title(参考訳): Grimm in Wonderland:FairytalesをイラストにしたMidjourneyによるプロンプトエンジニアリング
- Authors: Martin Ruskov
- Abstract要約: 本稿では,テキスト・ツー・イメージ・ジェネレーションとプロンプト・エンジニアリングを用いて,一般的な妖精の基本的な図像を作成できるかどうかを考察する。
Midjourney v4を使って、私たちは5つの人気のある妖精のそれぞれに5つの可能なイラストを作成しようとしています。
生成モデルが特定の図形と苦労する3つの理由について論じる。
- 参考スコア(独自算出の注目度): 0.5099081649205313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of text-to-image generation is continuously improving, yet the
boundaries of its applicability are still unclear. In particular, refinement of
the text input with the objective of achieving better results - commonly called
prompt engineering - so far seems to have not been geared towards work with
pre-existing texts. We investigate whether text-to-image generation and prompt
engineering could be used to generate basic illustrations of popular
fairytales. Using Midjourney v4, we engage in action research with a dual aim:
to attempt to generate 5 believable illustrations for each of 5 popular
fairytales, and to define a prompt engineering process that starts from a
pre-existing text and arrives at an illustration of it. We arrive at a
tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii)
style refinement, and iv) variation selection. We also discuss three reasons
why the generation model struggles with certain illustrations: difficulties
with counts, bias from stereotypical configurations and inability to depict
overly fantastic situations. Our findings are not limited to the specific
generation model and are intended to be generalisable to future ones.
- Abstract(参考訳): テキスト・画像生成の品質は継続的に改善されているが、その適用範囲はまだ不明である。
特に、より良い結果を達成するためのテキスト入力の洗練(一般的にはプロンプトエンジニアリングと呼ばれる)は、既存のテキストを扱うためのものではなかったようだ。
テキスト・ツー・イメージ生成とプロンプト・エンジニアリングを用いて,人気のおとぎ話の基本イラストを作成することができるか検討した。
Midjourney v4を使って、私たちは2つの目的でアクションリサーチに従事します。5つの有名な妖精のそれぞれに5つの可能なイラストを作成し、既存のテキストから始まり、そのイラストに到達する迅速なエンジニアリングプロセスを定義します。
仮の4段階のプロセスに着きます。
i) 最初のプロンプト
二 構成調整
三 様式の洗練、及び
iv) 変種選択。
また,生成モデルがある種のイラストに苦しむ3つの理由についても考察した。
本研究は, 特定の世代モデルに限らず, 将来の世代に一般化することを目的としている。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - A Taxonomy of Prompt Modifiers for Text-To-Image Generation [6.903929927172919]
本稿では,3ヶ月のエスノグラフィー研究に基づいて,オンラインコミュニティの実践者が使用する6種類のプロンプト修飾剤を同定する。
プロンプト修飾子の新たな分類法は、テキスト・ツー・イメージ・ジェネレーションの実践を研究するための概念的な出発点となる。
本稿では,人間-コンピュータインタラクション分野における新しい創造的実践の機会について論じる。
論文 参考訳(メタデータ) (2022-04-20T06:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。