論文の概要: PromptEvolver: Prompt Inversion through Evolutionary Optimization in Natural-Language Space
- arxiv url: http://arxiv.org/abs/2604.06061v1
- Date: Fri, 03 Apr 2026 17:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.933046
- Title: PromptEvolver: Prompt Inversion through Evolutionary Optimization in Natural-Language Space
- Title(参考訳): PromptEvolver:自然空間における進化最適化によるプロンプト反転
- Authors: Asaf Buchnick, Aviv Shamsian, Aviv Navon, Ethan Fetaya,
- Abstract要約: 本稿では,対象画像の高忠実度再構成を実現しつつ,自然言語のプロンプトを生成するプロンプト・エボルバーを提案する。
提案手法は遺伝的アルゴリズムを用いてプロンプトを最適化し,進化過程の導出に強力な視覚言語モデルを活用する。
- 参考スコア(独自算出の注目度): 20.416910591388618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation has progressed rapidly, but faithfully generating complex scenes requires extensive trial-and-error to find the exact prompt. In the prompt inversion task, the goal is to recover a textual prompt that can faithfully reconstruct a given target image. Currently, existing methods frequently yield suboptimal reconstructions and produce unnatural, hard-to-interpret prompts that hinder transparency and controllability. In this work, we present PromptEvolver, a prompt inversion approach that generates natural-language prompts while achieving high-fidelity reconstructions of the target image. Our method uses a genetic algorithm to optimize the prompt, leveraging a strong vision-language model to guide the evolution process. Importantly, it works on black-box generation models by requiring only image outputs. Finally, we evaluate PromptEvolver across multiple prompt inversion benchmarks and show that it consistently outperforms competing methods.
- Abstract(参考訳): テキストと画像の生成は急速に進んでいるが、正確なプロンプトを見つけるためには、複雑なシーンを忠実に生成する必要がある。
プロンプト反転タスクでは、所定の対象画像を忠実に再構成できるテキストプロンプトを復元することが目的である。
現在、既存の手法は、しばしば最適でない再構築をもたらし、不自然で解釈が難しいプロンプトを生成し、透明性と制御性を妨げている。
本稿では,対象画像の高忠実度再構成を実現しつつ,自然言語のプロンプトを生成するプロンプト・エボルバーを提案する。
提案手法は遺伝的アルゴリズムを用いてプロンプトを最適化し,進化過程の導出に強力な視覚言語モデルを活用する。
重要なのは、画像出力のみを必要とするブラックボックス生成モデルで動作することだ。
最後に、複数のプロンプトインバージョンベンチマークでPromptEvolverを評価し、競合するメソッドよりも一貫して優れていることを示す。
関連論文リスト
- EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [41.63451923844824]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - Image Generation from Contextually-Contradictory Prompts [50.999420029656214]
本稿では,プロキシプロンプトのシーケンスを用いて認知過程をガイドする段階認識プロンプト分解フレームワークを提案する。
本手法は,文脈矛盾の存在下でのきめ細かな意味制御と正確な画像生成を可能にする。
論文 参考訳(メタデータ) (2025-06-02T17:48:12Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Reverse Prompt: Cracking the Recipe Inside Text-to-Image Generation [87.34490419583558]
本稿では,自動リバースプロンプト最適化(ARPO)と呼ばれる手法を提案する。
提案手法では,初期プロンプトを反復的に模倣した勾配最適化プロセスにより高品質なプロンプトに洗練する。
これらの逆プロンプトを直接編集することで、多様なスタイルや内容の新規な画像を容易に作成できる。
論文 参考訳(メタデータ) (2025-03-25T02:08:05Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。