論文の概要: PromptMap: An Alternative Interaction Style for AI-Based Image Generation
- arxiv url: http://arxiv.org/abs/2503.09436v1
- Date: Wed, 12 Mar 2025 14:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:35:00.071128
- Title: PromptMap: An Alternative Interaction Style for AI-Based Image Generation
- Title(参考訳): PromptMap:AIベースの画像生成のための代替インタラクションスタイル
- Authors: Krzysztof Adamkiewicz, Paweł W. Woźniak, Julia Dominiak, Andrzej Romanowski, Jakob Karolus, Stanislav Frolov,
- Abstract要約: PromptMapは、ユーザーが膨大な合成プロンプトを探索できるテキスト・ツー・イメージAIのための新しいインタラクションスタイルである。
PromptMapは、セマンティックな類似性によって視覚的にイメージをグループ化し、ユーザーは関連するサンプルを見つけることができる。
本研究は,ユーザに対して,良好な画像出力の実現を促すことによって,使い慣れないインタラクションスタイルを提供する。
- 参考スコア(独自算出の注目度): 6.217700040004213
- License:
- Abstract: Recent technological advances popularized the use of image generation among the general public. Crafting effective prompts can, however, be difficult for novice users. To tackle this challenge, we developed PromptMap, a new interaction style for text-to-image AI that allows users to freely explore a vast collection of synthetic prompts through a map-like view with semantic zoom. PromptMap groups images visually by their semantic similarity, allowing users to discover relevant examples. We evaluated PromptMap in a between-subject online study ($n=60$) and a qualitative within-subject study ($n=12$). We found that PromptMap supported users in crafting prompts by providing them with examples. We also demonstrated the feasibility of using LLMs to create vast example collections. Our work contributes a new interaction style that supports users unfamiliar with prompting in achieving a satisfactory image output.
- Abstract(参考訳): 近年の技術進歩は、画像生成を一般大衆に普及させた。
しかし、初心者にとっては効果的なプロンプトを作るのは難しい。
この課題に対処するため、私たちはPmptMapを開発した。PmptMapはテキストと画像のAIのための新しいインタラクションスタイルで、ユーザーはセマンティックズームで地図のようなビューを通して、膨大な合成プロンプトのコレクションを自由に探索できる。
PromptMapは、セマンティックな類似性によって視覚的にイメージをグループ化し、ユーザーは関連するサンプルを見つけることができる。
対象間のオンライン調査(n=60$)と質的内部調査(n=12$)でPromptMapを評価した。
PromptMapがユーザに対して,実例を提供することで,プロンプトプロンプトのユーザを支援していることが分かりました。
また,LLMを用いて膨大なサンプルコレクションを作成可能であることも実証した。
本研究は,ユーザに対して,良好な画像出力の実現を促すことによって,使い慣れないインタラクションスタイルを提供する。
関連論文リスト
- MeetMap: Real-Time Collaborative Dialogue Mapping with LLMs in Online Meetings [6.515532419476521]
異なるレベルのAIアシストを含む2つのシステム変種について検討する。
Human-Mapでは、AIは会話の要約をノードとして生成し、ユーザはノードとの対話マップを作成する。
AIマップでは、AIはユーザーが編集できる対話マップを生成する。
論文 参考訳(メタデータ) (2025-02-03T17:47:15Z) - Visualizing Routes with AI-Discovered Street-View Patterns [4.153397474276339]
本稿では,視覚的特徴の定量化にセマンティック潜在ベクトルを用いる手法を提案する。
街路ビュー画像の集合間の画像類似度を計算し,空間像パターンの探索を行う。
インタラクティブな可視化プロトタイプであるVivaRoutesを紹介し、これらのパターンで視覚化がどのように活用され、ユーザーが複数のルートを効果的かつインタラクティブに探索するのに役立つかを示す。
論文 参考訳(メタデータ) (2024-03-30T17:32:26Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative
Dialogue with LLM [2.2894985490441377]
本稿では,テキスト・ツー・イメージ・プロンプトのステップ・バイ・ステップ作成を可能にする新しい混合開始システムであるPromptCrafterを紹介する。
反復的なプロセスを通じて、ユーザーはモデルの能力を効率的に探求し、その意図を明らかにすることができる。
PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。
論文 参考訳(メタデータ) (2023-07-18T05:51:00Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。