Fugu-MT 論文翻訳(概要): Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting

論文の概要: Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting

arxiv url: http://arxiv.org/abs/2310.08129v2
Date: Wed, 29 Nov 2023 09:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 19:59:40.529289
Title: Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting
Title（参考訳）: Tailored Visions: パーソナライズされたプロンプト書き換えによるテキスト・画像生成の強化
Authors: Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan
Abstract要約: 本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。我々の書き換えモデルは、ユーザプロンプトの表現力とアライメントを意図した視覚的出力で向上させる。
参考スコア（独自算出の注目度）: 14.218165096404201
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite significant progress in the field, it is still challenging to create personalized visual representations that align closely with the desires and preferences of individual users. This process requires users to articulate their ideas in words that are both comprehensible to the models and accurately capture their vision, posing difficulties for many users. In this paper, we tackle this challenge by leveraging historical user interactions with the system to enhance user prompts. We propose a novel approach that involves rewriting user prompts based on a newly collected large-scale text-to-image dataset with over 300k prompts from 3115 users. Our rewriting model enhances the expressiveness and alignment of user prompts with their intended visual outputs. Experimental results demonstrate the superiority of our methods over baseline approaches, as evidenced in our new offline evaluation method and online tests. Our code and dataset are available at https://github.com/zzjchen/Tailored-Visions .
Abstract（参考訳）: この分野の大きな進歩にもかかわらず、個々のユーザーの欲求や好みと密接に一致するパーソナライズされた視覚的表現を作成することは依然として困難である。このプロセスでは、ユーザーは自分のアイデアをモデルに理解できる言葉で表現し、ビジョンを正確に捉える必要があり、多くのユーザーに困難をもたらします。本稿では,システムとの歴史的ユーザインタラクションを活用してユーザプロンプトを強化することで,この問題に対処する。本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。書き直しモデルは、ユーザのプロンプトと意図した視覚出力の表現力とアライメントを高める。実験結果は,新しいオフライン評価手法とオンラインテストで示されるような,ベースラインアプローチよりも優れた手法を示す。私たちのコードとデータセットはhttps://github.com/zzjchen/tailored-visionsで利用可能です。

関連論文リスト

Adaptive Prompt Elicitation for Text-to-Image Generation [31.242444699785697]
APEは、言語モデル事前を用いた解釈可能な機能要件として遅延インテントを表現している。ユーザ定義タスクに挑戦するユーザスタディでは、ワークロードのオーバーヘッドなしに、19.8%のアライメントが証明されている。
論文参考訳（メタデータ） (2026-02-04T16:24:46Z)
Contextualized Visual Personalization in Vision-Language Models [51.3151397451851]
本稿では、コンテキスト化された視覚的パーソナライゼーションのコアタスクとして、パーソナライズされた画像キャプションを扱う統一的なフレームワークを提案する。実験では、CoViPはパーソナライズされた画像キャプションを改善するだけでなく、下流のパーソナライゼーションタスク全体で全体的利益をもたらす。これらの結果から、CoViPは、堅牢で一般化可能な視覚的パーソナライゼーションを実現するための重要な段階であることが示された。
論文参考訳（メタデータ） (2026-02-03T12:21:26Z)
Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation [63.042451267669485]
Inference-time Scaling のための Prompt Redesign を提案する。これは、拡張された視覚世代に対応するために、推論中にプロンプトを適応的に修正するフレームワークである。そこで我々は,素早い属性と生成した視覚の微粒化レベルでのアライメントを評価する,新しい検証手法である要素レベルの事実補正を導入する。テキスト・ツー・イメージ・ベンチマークとテキスト・ツー・ビデオ・ベンチマークによる実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2025-12-03T07:54:05Z)
Personalized Reward Modeling for Text-to-Image Generation [9.780251969338044]
ユーザ条件付き評価次元を動的に生成し,CoT推論による画像評価を行うパーソナライズされた報酬モデルであるPIGRewardを提案する。 PIGRewardは、ユーザ固有のプロンプト最適化を促進するパーソナライズされたフィードバックを提供する。大規模な実験により、PIGRewardは精度と解釈可能性の両方において既存の手法を超越していることが示された。
論文参考訳（メタデータ） (2025-11-21T12:04:24Z)
VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-29T08:24:39Z)
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-05-23T06:44:26Z)
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文参考訳（メタデータ） (2025-03-09T14:14:02Z)
Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。 T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文参考訳（メタデータ） (2025-01-26T19:01:19Z)
Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [28.647935556492957]
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
論文参考訳（メタデータ） (2025-01-25T10:32:00Z)
Personalized Graph-Based Retrieval for Large Language Models [51.7278897841697]
ユーザ中心の知識グラフを利用してパーソナライゼーションを強化するフレームワークを提案する。構造化されたユーザ知識を直接検索プロセスに統合し、ユーザ関連コンテキストにプロンプトを拡大することにより、PGraphはコンテキスト理解と出力品質を向上させる。また,ユーザ履歴が不足あるいは利用できない実環境において,パーソナライズされたテキスト生成タスクを評価するために設計された,パーソナライズドグラフベースのテキスト生成ベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-04T01:46:49Z)
Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文参考訳（メタデータ） (2024-08-27T18:08:00Z)
What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文参考訳（メタデータ） (2024-08-23T08:35:35Z)
Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。 PRIPは精細化処理を2つのデータリッチなタスクに分解する。これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文参考訳（メタデータ） (2024-06-28T22:19:24Z)
User Embedding Model for Personalized Language Prompting [9.472634942498859]
自由形式のテキストでユーザ履歴を効率よく処理し,それを埋め込みとして表現する新しいユーザ埋め込みモジュール(UEM)を導入する。本実験は, より長い歴史を扱う上で, このアプローチの優れた能力を示すものである。この研究の主な貢献は、埋め込みとして表現されたユーザ信号で言語モデルをバイアスする能力を示すことである。
論文参考訳（メタデータ） (2024-01-10T00:35:52Z)
Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。 Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文参考訳（メタデータ） (2023-12-27T21:12:21Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文参考訳（メタデータ） (2023-11-28T14:55:52Z)
Human Learning by Model Feedback: The Dynamics of Iterative Prompting with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文参考訳（メタデータ） (2023-11-20T19:28:52Z)
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文参考訳（メタデータ） (2023-11-16T18:59:51Z)
Promptify: Text-to-Image Generation through Interactive Prompt Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文参考訳（メタデータ） (2023-04-18T22:59:11Z)
A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文参考訳（メタデータ） (2021-11-29T17:49:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。