Fugu-MT 論文翻訳(概要): Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting

論文の概要: Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting

arxiv url: http://arxiv.org/abs/2310.08129v1
Date: Thu, 12 Oct 2023 08:36:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 12:24:05.369238
Title: Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting
Title（参考訳）: Tailored Visions: パーソナライズされたプロンプト書き換えによるテキスト・画像生成の強化
Authors: Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan
Abstract要約: 本稿では,大規模な事前学習されたモデルを検索エンジンとして見るという新たな視点を提案する。我々は、テキスト・ツー・イメージ生成の領域でパーソナライズされたクエリ書き換え技術を採用している。本稿では,ユーザプロンプトの書き直しを伴う新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 14.218165096404201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel perspective of viewing large pretrained models as search engines, thereby enabling the repurposing of techniques previously used to enhance search engine performance. As an illustration, we employ a personalized query rewriting technique in the realm of text-to-image generation. Despite significant progress in the field, it is still challenging to create personalized visual representations that align closely with the desires and preferences of individual users. This process requires users to articulate their ideas in words that are both comprehensible to the models and accurately capture their vision, posing difficulties for many users. In this paper, we tackle this challenge by leveraging historical user interactions with the system to enhance user prompts. We propose a novel approach that involves rewriting user prompts based a new large-scale text-to-image dataset with over 300k prompts from 3115 users. Our rewriting model enhances the expressiveness and alignment of user prompts with their intended visual outputs. Experimental results demonstrate the superiority of our methods over baseline approaches, as evidenced in our new offline evaluation method and online tests. Our approach opens up exciting possibilities of applying more search engine techniques to build truly personalized large pretrained models.
Abstract（参考訳）: 本研究では,事前学習された大規模モデルを検索エンジンとして見る新たな視点を提案する。イラストとして,テキストから画像への生成にパーソナライズされたクエリ書き換え技術を用いる。この分野の大きな進歩にもかかわらず、個々のユーザーの欲求や好みと密接に一致するパーソナライズされた視覚的表現を作成することは依然として困難である。このプロセスでは、ユーザーは自分のアイデアをモデルに理解できる言葉で表現し、ビジョンを正確に捉える必要があり、多くのユーザーに困難をもたらします。本稿では,システムとの歴史的ユーザインタラクションを活用してユーザプロンプトを強化することで,この問題に対処する。本稿では,3115名のユーザから300万以上のプロンプトを持つ大規模テキスト画像データセットをユーザプロンプトに書き換える,新たなアプローチを提案する。書き直しモデルは、ユーザのプロンプトと意図した視覚出力の表現力とアライメントを高める。実験結果は,新しいオフライン評価手法とオンラインテストで示されるような,ベースラインアプローチよりも優れた手法を示す。私たちのアプローチは、真のパーソナライズされた大規模事前学習モデルを構築するために、より多くの検索エンジン技術を適用するエキサイティングな可能性を開きます。

関連論文リスト

VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-29T08:24:39Z)
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-05-23T06:44:26Z)
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文参考訳（メタデータ） (2025-03-09T14:14:02Z)
Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。 T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文参考訳（メタデータ） (2025-01-26T19:01:19Z)
Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [28.647935556492957]
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
論文参考訳（メタデータ） (2025-01-25T10:32:00Z)
Personalized Graph-Based Retrieval for Large Language Models [51.7278897841697]
ユーザ中心の知識グラフを利用してパーソナライゼーションを強化するフレームワークを提案する。構造化されたユーザ知識を直接検索プロセスに統合し、ユーザ関連コンテキストにプロンプトを拡大することにより、PGraphはコンテキスト理解と出力品質を向上させる。また,ユーザ履歴が不足あるいは利用できない実環境において,パーソナライズされたテキスト生成タスクを評価するために設計された,パーソナライズドグラフベースのテキスト生成ベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-04T01:46:49Z)
Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文参考訳（メタデータ） (2024-08-27T18:08:00Z)
What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文参考訳（メタデータ） (2024-08-23T08:35:35Z)
Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。 PRIPは精細化処理を2つのデータリッチなタスクに分解する。これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文参考訳（メタデータ） (2024-06-28T22:19:24Z)
User Embedding Model for Personalized Language Prompting [9.472634942498859]
自由形式のテキストでユーザ履歴を効率よく処理し,それを埋め込みとして表現する新しいユーザ埋め込みモジュール(UEM)を導入する。本実験は, より長い歴史を扱う上で, このアプローチの優れた能力を示すものである。この研究の主な貢献は、埋め込みとして表現されたユーザ信号で言語モデルをバイアスする能力を示すことである。
論文参考訳（メタデータ） (2024-01-10T00:35:52Z)
Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。 Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文参考訳（メタデータ） (2023-12-27T21:12:21Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文参考訳（メタデータ） (2023-11-28T14:55:52Z)
Human Learning by Model Feedback: The Dynamics of Iterative Prompting with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文参考訳（メタデータ） (2023-11-20T19:28:52Z)
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文参考訳（メタデータ） (2023-11-16T18:59:51Z)
Promptify: Text-to-Image Generation through Interactive Prompt Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文参考訳（メタデータ） (2023-04-18T22:59:11Z)
A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文参考訳（メタデータ） (2021-11-29T17:49:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。