論文の概要: Adaptive Prompt Elicitation for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.04713v1
- Date: Wed, 04 Feb 2026 16:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.617403
- Title: Adaptive Prompt Elicitation for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のための適応的プロンプト除去
- Authors: Xinyi Wen, Lena Hegemann, Xiaofu Jin, Shuai Ma, Antti Oulasvirta,
- Abstract要約: APEは、言語モデル事前を用いた解釈可能な機能要件として遅延インテントを表現している。
ユーザ定義タスクに挑戦するユーザスタディでは、ワークロードのオーバーヘッドなしに、19.8%のアライメントが証明されている。
- 参考スコア(独自算出の注目度): 31.242444699785697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning text-to-image generation with user intent remains challenging, for users who provide ambiguous inputs and struggle with model idiosyncrasies. We propose Adaptive Prompt Elicitation (APE), a technique that adaptively asks visual queries to help users refine prompts without extensive writing. Our technical contribution is a formulation of interactive intent inference under an information-theoretic framework. APE represents latent intent as interpretable feature requirements using language model priors, adaptively generates visual queries, and compiles elicited requirements into effective prompts. Evaluation on IDEA-Bench and DesignBench shows that APE achieves stronger alignment with improved efficiency. A user study with challenging user-defined tasks demonstrates 19.8% higher alignment without workload overhead. Our work contributes a principled approach to prompting that, for general users, offers an effective and efficient complement to the prevailing prompt-based interaction paradigm with text-to-image models.
- Abstract(参考訳): ユーザ意図によるテキスト・ツー・イメージ生成の調整は、あいまいなインプットを提供し、モデルの慣用性に苦労するユーザにとって、依然として困難である。
本稿では,視覚的クエリを適応的に要求する手法であるAdaptive Prompt Elicitation (APE)を提案する。
我々の技術的貢献は、情報理論の枠組みの下での対話的意図推論の定式化である。
APEは、言語モデルプリエントを使用して、潜在意図を解釈可能な機能要件として表現し、視覚的なクエリを適応的に生成し、提案された要求を効果的なプロンプトにコンパイルする。
IDEA-BenchとDesignBenchの評価は、APEが効率を向上してより強力なアライメントを実現することを示している。
ユーザ定義タスクに挑戦するユーザスタディでは、ワークロードのオーバーヘッドなしに、19.8%のアライメントが証明されている。
我々の研究は、一般ユーザーにとって、テキスト・ツー・イメージ・モデルによるプロンプト・ベース・インタラクションのパラダイムを効果的かつ効率的に補完することを促すための原則的なアプローチに寄与する。
関連論文リスト
- VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。
本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-29T08:24:39Z) - Creating General User Models from Computer Use [53.59999173952482]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。
GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文 参考訳(メタデータ) (2025-05-16T04:00:31Z) - Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [50.714983524814606]
現在の画像生成システムは高品質な画像を生成するが、曖昧なユーザープロンプトに苦慮している。
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。
論文 参考訳(メタデータ) (2025-01-25T10:32:00Z) - Taming Text-to-Image Synthesis for Novices: User-centric Prompt Generation via Multi-turn Guidance [24.432762962671614]
DialPromptは対話ベースのTISプロンプト生成モデルで、初心者のユーザーエクスペリエンスを強調している。
これを実現するために、先進的なユーザからの高品質なプロンプトのための15の必須次元をマイニングし、マルチターンデータセットをキュレートした。
実験によると、DialPromptは既存のアプローチに比べてユーザ中心のスコアを大幅に改善している。
論文 参考訳(メタデータ) (2024-08-23T08:35:35Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。