論文の概要: POET: Supporting Prompting Creativity and Personalization with Automated Expansion of Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2504.13392v1
- Date: Fri, 18 Apr 2025 00:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:53:41.456869
- Title: POET: Supporting Prompting Creativity and Personalization with Automated Expansion of Text-to-Image Generation
- Title(参考訳): POET:テキスト・画像の自動生成によるプロンプティングの創造性とパーソナライズを支援する
- Authors: Evans Xu Han, Alice Qian Zhang, Hong Shen, Haiyi Zhu, Paul Pu Liang, Jane Hsieh,
- Abstract要約: 最先端のビジュアル生成AIツールは、クリエイティブなタスクの初期のアイデア段階において、ユーザーを支援する大きな可能性を秘めている。
多くの大規模テキスト・ツー・イメージシステムは幅広い適用性のために設計されており、創造的な探索を制限するような従来の出力が得られる。
テキストから画像への生成モデルにおいて,同質性の次元を自動的に検出するリアルタイム対話型ツールPOETを紹介する。
- 参考スコア(独自算出の注目度): 31.886910258606875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art visual generative AI tools hold immense potential to assist users in the early ideation stages of creative tasks -- offering the ability to generate (rather than search for) novel and unprecedented (instead of existing) images of considerable quality that also adhere to boundless combinations of user specifications. However, many large-scale text-to-image systems are designed for broad applicability, yielding conventional output that may limit creative exploration. They also employ interaction methods that may be difficult for beginners. Given that creative end users often operate in diverse, context-specific ways that are often unpredictable, more variation and personalization are necessary. We introduce POET, a real-time interactive tool that (1) automatically discovers dimensions of homogeneity in text-to-image generative models, (2) expands these dimensions to diversify the output space of generated images, and (3) learns from user feedback to personalize expansions. An evaluation with 28 users spanning four creative task domains demonstrated POET's ability to generate results with higher perceived diversity and help users reach satisfaction in fewer prompts during creative tasks, thereby prompting them to deliberate and reflect more on a wider range of possible produced results during the co-creative process. Focusing on visual creativity, POET offers a first glimpse of how interaction techniques of future text-to-image generation tools may support and align with more pluralistic values and the needs of end users during the ideation stages of their work.
- Abstract(参考訳): 最先端のビジュアル生成AIツールは、創造的なタスクの初期のアイデア段階において、ユーザを支援する大きな可能性を秘めている。
しかし、多くの大規模テキスト・画像システムは幅広い適用性のために設計されており、創造的な探索を制限するような従来の出力が得られる。
また、初心者にとって難しいであろうインタラクション手法も採用している。
創造的なエンドユーザは、しばしば予測不可能な多様なコンテキスト特有の方法で運用されるため、よりバリエーションとパーソナライゼーションが必要である。
我々は,(1)テキストから画像への生成モデルにおける同質性の次元を自動的に検出するリアルタイムインタラクティブツールPOETを紹介し,(2)これらの次元を拡張して生成画像の出力空間を多様化させ,(3)ユーザフィードバックから学習して拡張をパーソナライズする。
4つの創造的タスクドメインにまたがる28人のユーザによる評価では、POETはより認知度の高い結果を生成し、創造的タスク中により少ないプロンプトで満足度を達成できることを示した。
視覚的創造性に焦点を当てたPOETは、将来のテキスト・画像生成ツールのインタラクション技術が、より多元的な価値と、彼らの作業のアイデア段階におけるエンドユーザのニーズをどのようにサポートし、調整するかを、最初の視点として提供します。
関連論文リスト
- Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。
X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。
テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文 参考訳(メタデータ) (2024-12-02T18:59:26Z) - Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。
外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。
内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文 参考訳(メタデータ) (2024-08-27T18:08:00Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - A New Creative Generation Pipeline for Click-Through Rate with Stable
Diffusion Model [8.945197427679924]
従来のAIベースのアプローチは、デザイナーからの美的知識を限定しながら、ユーザー情報を考慮しないという同じ問題に直面している。
結果を最適化するために、従来の方法で生成されたクリエイティブは、クリエイティブランキングモデルと呼ばれる別のモジュールによってランク付けされる。
本稿では,クリエイティビティ生成段階においてCTRを改善することを目的とした,Click-Through Rate (CG4CTR) のための新しいCreative Generationパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-17T03:27:39Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - The role of interface design on prompt-mediated creativity in Generative
AI [0.0]
2つのジェネレーティブAIプラットフォームから145,000以上のプロンプトを分析します。
その結果,利用者は以前訪れた概念の活用よりも,新たなトピックを探求する傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-11-30T22:33:34Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。