論文の概要: An Initial Exploration of Default Images in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.09166v1
- Date: Wed, 14 May 2025 05:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.383786
- Title: An Initial Exploration of Default Images in Text-to-Image Generation
- Title(参考訳): テキスト・画像生成におけるデフォルト画像の初期探索
- Authors: Hannu Simonen, Atte Kiviniemi, Jonas Oppenlaender,
- Abstract要約: 我々は、デフォルト画像の研究は、テキスト・ツー・イメージ・ジェネレーション(TTI)のためのより良いソリューションを設計し、迅速なエンジニアリングを行うのに有用であると主張している。
本稿では,デフォルト画像をトリガーするインプットプロンプトを作成するための体系的アプローチについて述べるとともに,初期実験の結果といくつかの小規模アブレーション研究について述べる。
我々の研究は、TTIにおけるデフォルト画像の理解の基礎を築き、課題と今後の研究方向性を強調します。
- 参考スコア(独自算出の注目度): 4.141142490738848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the creative practice of text-to-image generation (TTI), images are generated from text prompts. However, TTI models are trained to always yield an output, even if the prompt contains unknown terms. In this case, the model may generate what we call "default images": images that closely resemble each other across many unrelated prompts. We argue studying default images is valuable for designing better solutions for TTI and prompt engineering. In this paper, we provide the first investigation into default images on Midjourney, a popular image generator. We describe our systematic approach to create input prompts triggering default images, and present the results of our initial experiments and several small-scale ablation studies. We also report on a survey study investigating how default images affect user satisfaction. Our work lays the foundation for understanding default images in TTI and highlights challenges and future research directions.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーション(TTI)の創造的な実践では、画像はテキスト・プロンプトから生成される。
しかし、TTIモデルは、たとえプロンプトが未知の項を含むとしても、常に出力を出力するように訓練されている。
この場合、モデルは私たちが"デフォルトイメージ"と呼ぶものを生成する。
デフォルト画像の研究は、TTIと迅速なエンジニアリングのためのより良いソリューションを設計するのに有用である、と我々は主張する。
本稿では,一般的な画像生成装置であるMidjourneyのデフォルト画像に関する最初の調査を行う。
本稿では,デフォルト画像をトリガーするインプットプロンプトを作成するための体系的アプローチについて述べるとともに,初期実験の結果といくつかの小規模アブレーション研究について述べる。
また,デフォルト画像がユーザの満足度に与える影響について調査した。
我々の研究は、TTIにおけるデフォルト画像の理解の基礎を築き、課題と今後の研究方向性を強調します。
関連論文リスト
- TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models [28.983503845298824]
合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-03T12:23:33Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - The Infinite Index: Information Retrieval on Generative Text-To-Image
Models [24.349087181599465]
対話型画像検索として画像プロンプトエンジニアリングを「無限指数」で再放送する
これは、サーバ側がステートレスであるのに対して、イニシアチブがユーザ側にある、一方的なインタラクティブ検索の形式です。
また、生成モデルと対話型生成画像検索に特化した検索モデルに関する今後の研究機会についても論じる。
論文 参考訳(メタデータ) (2022-12-14T19:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。