論文の概要: TIPO: Text to Image with Text Presampling for Prompt Optimization
- arxiv url: http://arxiv.org/abs/2411.08127v3
- Date: Tue, 11 Mar 2025 18:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:35:58.480786
- Title: TIPO: Text to Image with Text Presampling for Prompt Optimization
- Title(参考訳): TIPO: プロンプト最適化のためのテキストプリサンプリングによる画像へのテキスト変換
- Authors: Shih-Ying Yeh, Sang-Hyun Park, Yi Li, Giyeong Oh, Xuehai Wang, Min Song, Youngjae Yu,
- Abstract要約: TIPO(Text-to-Image Prompt Optimization)は、テキスト・トゥ・イメージ(T2I)生成において、自動的なプロンプト改善のための効率的なアプローチを導入する。
シンプルなユーザープロンプトから始めて、TIPOは軽量の事前訓練モデルを利用して、これらのプロンプトをよりリッチで詳細なバージョンに拡張する。
- 参考スコア(独自算出の注目度): 17.312386194139652
- License:
- Abstract: TIPO (Text-to-Image Prompt Optimization) introduces an efficient approach for automatic prompt refinement in text-to-image (T2I) generation. Starting from simple user prompts, TIPO leverages a lightweight pre-trained model to expand these prompts into richer, detailed versions. Conceptually, TIPO samples refined prompts from a targeted sub-distribution within the broader semantic space, preserving the original intent while significantly improving visual quality, coherence, and detail. Unlike resource-intensive methods based on large language models (LLMs) or reinforcement learning (RL), TIPO provides computational efficiency and scalability, opening new possibilities for effective, automated prompt engineering in T2I tasks. We provide visual results, human preference report to investigate TIPO's effectiveness. Experimental evaluations on benchmark datasets demonstrate substantial improvements in aesthetic quality, significant reduction of visual artifacts, and enhanced alignment with target distributions along with significant human preference proficiency. These results highlight the importance of targeted prompt engineering in text-to-image tasks and indicate broader opportunities for automated prompt refinement.
- Abstract(参考訳): TIPO(Text-to-Image Prompt Optimization)は、テキスト・トゥ・イメージ(T2I)生成において、自動的なプロンプト改善のための効率的なアプローチを導入する。
シンプルなユーザープロンプトから始めて、TIPOは軽量の事前訓練モデルを利用して、これらのプロンプトをよりリッチで詳細なバージョンに拡張する。
概念的には、TIPOは、より広い意味空間における目的のサブディストリビューションから、視覚的品質、コヒーレンス、ディテールを著しく改善しつつ、本来の意図を保ちながら、洗練されたプロンプトをサンプリングする。
大規模言語モデル(LLM)や強化学習(RL)に基づくリソース集約的な手法とは異なり、TIPOは計算効率とスケーラビリティを提供し、T2Iタスクにおける効率的な自動プロンプトエンジニアリングの新たな可能性を開く。
TIPOの有効性を検討するために、視覚的結果、人間の嗜好レポートを提供する。
ベンチマークデータセットの実験的評価は、美的品質の大幅な改善、視覚的アーティファクトの大幅な削減、ターゲット分布との整合性の向上、および人間の嗜好能力の向上を示す。
これらの結果は、テキスト・ツー・イメージタスクにおけるターゲット・プロンプト・エンジニアリングの重要性を強調し、自動化されたプロンプト・リファインメントの幅広い機会を示す。
関連論文リスト
- FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。
PRIPは精細化処理を2つのデータリッチなタスクに分解する。
これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文 参考訳(メタデータ) (2024-06-28T22:19:24Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image
Synthesis [14.852061933308276]
極めて単純な生記述から高品質なプロンプトを生成するための深層生成モデルである BeautifulPrompt を提案する。
私たちの研究では、まず、高品質で高品質な収集プロンプトペアよりも美しいプロンプトモデルを微調整しました。
さらに、より優れたテキスト・ツー・イメージ生成サービスを提供するために、クラウドネイティブなAIプラットフォームへのBeautifulPromptの統合についても紹介します。
論文 参考訳(メタデータ) (2023-11-12T06:39:00Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。