論文の概要: TIPO: Text to Image with Text Presampling for Prompt Optimization
- arxiv url: http://arxiv.org/abs/2411.08127v2
- Date: Fri, 22 Nov 2024 14:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:12.883413
- Title: TIPO: Text to Image with Text Presampling for Prompt Optimization
- Title(参考訳): TIPO: プロンプト最適化のためのテキストプリサンプリングによる画像へのテキスト変換
- Authors: Shih-Ying Yeh, Sang-Hyun Park, Giyeong Oh, Min Song, Youngjae Yu,
- Abstract要約: TIPOは、言語モデル(LM)によるテキスト・ツー・イメージ(T2I)生成を強化するために設計された革新的なフレームワークである。
LLM(Large Language Models)や強化学習(RL)に依存する従来のアプローチとは異なり、TIPOはトレーニングされたプロンプトデータセットの配布によって、ユーザの入力プロンプトを調整する。
- 参考スコア(独自算出の注目度): 16.001151202788304
- License:
- Abstract: TIPO (Text to Image with text pre-sampling for Prompt Optimization) is an innovative framework designed to enhance text-to-image (T2I) generation by language model (LM) for automatic prompt engineering. By refining and extending user-provided prompts, TIPO bridges the gap between simple inputs and the detailed prompts required for high-quality image generation. Unlike previous approaches that rely on Large Language Models (LLMs) or reinforcement learning (RL), TIPO adjusts user input prompts with the distribution of a trained prompt dataset, eliminating the need for complex runtime cost via lightweight model. This pre-sampling approach enables efficient and scalable prompt optimization, grounded in the model's training distribution. Experimental results demonstrate TIPO's effectiveness in improving aesthetic scores, reducing image corruption, and better aligning generated images with dataset distributions. These findings highlight the critical role of prompt engineering in T2I systems and open avenues for broader applications of automatic prompt refinement.
- Abstract(参考訳): TIPO (Text to Image with text pre-sampling for Prompt Optimization) は、自動プロンプトエンジニアリングのための言語モデル(LM)によるテキスト・トゥ・イメージ(T2I)生成を強化するために設計された革新的なフレームワークである。
ユーザが提供するプロンプトの精細化と拡張によって、TIPOは、単純な入力と高品質の画像生成に必要な詳細なプロンプトとのギャップを埋める。
LLM(Large Language Models)や強化学習(RL)に依存する従来のアプローチとは異なり、TIPOはトレーニングされたプロンプトデータセットの配布によってユーザ入力プロンプトを調整するため、軽量モデルによる複雑なランタイムコストが不要になる。
この事前サンプリングアプローチは、モデルのトレーニング分布に基づいて、効率的でスケーラブルなプロンプト最適化を可能にする。
実験結果は、TIPOが美的スコアを改善し、画像の劣化を低減し、生成された画像とデータセットの分布を整合させる効果を示す。
これらの知見は、T2Iシステムにおけるプロンプトエンジニアリングの重要な役割と、自動プロンプトリファインメントの幅広い応用に向けてのオープンな道である。
関連論文リスト
- FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。
PRIPは精細化処理を2つのデータリッチなタスクに分解する。
これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文 参考訳(メタデータ) (2024-06-28T22:19:24Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image
Synthesis [14.852061933308276]
極めて単純な生記述から高品質なプロンプトを生成するための深層生成モデルである BeautifulPrompt を提案する。
私たちの研究では、まず、高品質で高品質な収集プロンプトペアよりも美しいプロンプトモデルを微調整しました。
さらに、より優れたテキスト・ツー・イメージ生成サービスを提供するために、クラウドネイティブなAIプラットフォームへのBeautifulPromptの統合についても紹介します。
論文 参考訳(メタデータ) (2023-11-12T06:39:00Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。