論文の概要: EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.03067v1
- Date: Tue, 03 Jun 2025 16:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.870775
- Title: EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models
- Title(参考訳): EDITOR:テキストと画像の拡散モデルに対する有効かつ解釈可能なプロンプトインバージョン
- Authors: Mingzhe Li, Gehao Zhang, Zhenting Wang, Shiqing Ma, Siqi Pan, Richard Cartwright, Juan Zhai,
- Abstract要約: 本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
- 参考スコア(独自算出の注目度): 31.31018600797305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation models~(e.g., Stable Diffusion) have achieved significant advancements, enabling the creation of high-quality and realistic images based on textual descriptions. Prompt inversion, the task of identifying the textual prompt used to generate a specific artifact, holds significant potential for applications including data attribution, model provenance, and watermarking validation. Recent studies introduced a delayed projection scheme to optimize for prompts representative of the vocabulary space, though challenges in semantic fluency and efficiency remain. Advanced image captioning models or visual large language models can generate highly interpretable prompts, but they often lack in image similarity. In this paper, we propose a prompt inversion technique called \sys for text-to-image diffusion models, which includes initializing embeddings using a pre-trained image captioning model, refining them through reverse-engineering in the latent space, and converting them to texts using an embedding-to-text model. Our experiments on the widely-used datasets, such as MS COCO, LAION, and Flickr, show that our method outperforms existing methods in terms of image similarity, textual alignment, prompt interpretability and generalizability. We further illustrate the application of our generated prompts in tasks such as cross-concept image synthesis, concept manipulation, evolutionary multi-concept generation and unsupervised segmentation.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデル~(例えば、安定拡散)は、テキスト記述に基づく高品質でリアルな画像の作成を可能にした。
特定のアーティファクトを生成するために使用されるテキストプロンプトを識別するタスクであるPromptインバージョンは、データ属性、モデル証明、ウォーターマーキングバリデーションを含むアプリケーションに重要な可能性を秘めている。
近年の研究では、語彙空間の表現を最適化するための遅延プロジェクションスキームが導入されたが、セマンティック・フラエンシーと効率性の課題は残されている。
高度な画像キャプションモデルや視覚的大言語モデルは高度に解釈可能なプロンプトを生成することができるが、画像の類似性に欠けることが多い。
本稿では,事前に訓練された画像キャプションモデルを用いて埋め込みを初期化し,潜時空間のリバースエンジニアリングによりそれを精製し,埋め込み-テクストモデルを用いてテキストに変換する,テキスト間拡散モデルのための‘sys’と呼ばれる迅速なインバージョン手法を提案する。
我々は,MS COCO, LAION, Flickrなどの広く利用されているデータセットを用いて, 画像類似性, テキストアライメント, 迅速な解釈可能性, 一般化可能性の観点から, 既存の手法よりも優れていることを示す。
さらに、クロスコンセプト画像合成、概念操作、進化的マルチコンセプト生成、教師なしセグメンテーションといったタスクにおいて、生成したプロンプトの応用について述べる。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。