論文の概要: Tailored Visions: Enhancing Text-to-Image Generation with Personalized
Prompt Rewriting
- arxiv url: http://arxiv.org/abs/2310.08129v1
- Date: Thu, 12 Oct 2023 08:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:24:05.369238
- Title: Tailored Visions: Enhancing Text-to-Image Generation with Personalized
Prompt Rewriting
- Title(参考訳): Tailored Visions: パーソナライズされたプロンプト書き換えによるテキスト・画像生成の強化
- Authors: Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan
- Abstract要約: 本稿では,大規模な事前学習されたモデルを検索エンジンとして見るという新たな視点を提案する。
我々は、テキスト・ツー・イメージ生成の領域でパーソナライズされたクエリ書き換え技術を採用している。
本稿では,ユーザプロンプトの書き直しを伴う新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.218165096404201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel perspective of viewing large pretrained models as search
engines, thereby enabling the repurposing of techniques previously used to
enhance search engine performance. As an illustration, we employ a personalized
query rewriting technique in the realm of text-to-image generation. Despite
significant progress in the field, it is still challenging to create
personalized visual representations that align closely with the desires and
preferences of individual users. This process requires users to articulate
their ideas in words that are both comprehensible to the models and accurately
capture their vision, posing difficulties for many users. In this paper, we
tackle this challenge by leveraging historical user interactions with the
system to enhance user prompts. We propose a novel approach that involves
rewriting user prompts based a new large-scale text-to-image dataset with over
300k prompts from 3115 users. Our rewriting model enhances the expressiveness
and alignment of user prompts with their intended visual outputs. Experimental
results demonstrate the superiority of our methods over baseline approaches, as
evidenced in our new offline evaluation method and online tests. Our approach
opens up exciting possibilities of applying more search engine techniques to
build truly personalized large pretrained models.
- Abstract(参考訳): 本研究では,事前学習された大規模モデルを検索エンジンとして見る新たな視点を提案する。
イラストとして,テキストから画像への生成にパーソナライズされたクエリ書き換え技術を用いる。
この分野の大きな進歩にもかかわらず、個々のユーザーの欲求や好みと密接に一致するパーソナライズされた視覚的表現を作成することは依然として困難である。
このプロセスでは、ユーザーは自分のアイデアをモデルに理解できる言葉で表現し、ビジョンを正確に捉える必要があり、多くのユーザーに困難をもたらします。
本稿では,システムとの歴史的ユーザインタラクションを活用してユーザプロンプトを強化することで,この問題に対処する。
本稿では,3115名のユーザから300万以上のプロンプトを持つ大規模テキスト画像データセットをユーザプロンプトに書き換える,新たなアプローチを提案する。
書き直しモデルは、ユーザのプロンプトと意図した視覚出力の表現力とアライメントを高める。
実験結果は,新しいオフライン評価手法とオンラインテストで示されるような,ベースラインアプローチよりも優れた手法を示す。
私たちのアプローチは、真のパーソナライズされた大規模事前学習モデルを構築するために、より多くの検索エンジン技術を適用するエキサイティングな可能性を開きます。
関連論文リスト
- Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - User Embedding Model for Personalized Language Prompting [9.472634942498859]
自由形式のテキストでユーザ履歴を効率よく処理し,それを埋め込みとして表現する新しいユーザ埋め込みモジュール(UEM)を導入する。
本実験は, より長い歴史を扱う上で, このアプローチの優れた能力を示すものである。
この研究の主な貢献は、埋め込みとして表現されたユーザ信号で言語モデルをバイアスする能力を示すことである。
論文 参考訳(メタデータ) (2024-01-10T00:35:52Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - Human Learning by Model Feedback: The Dynamics of Iterative Prompting
with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。
これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。
ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文 参考訳(メタデータ) (2023-11-20T19:28:52Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。