Fugu-MT 論文翻訳(概要): Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation

論文の概要: Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2403.19103v2
Date: Sun, 08 Dec 2024 19:09:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.48131
Title: Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation
Title（参考訳）: パーソナライズされたテキスト・ツー・イメージ生成のための自動ブラックボックスプロンプトエンジニアリング
Authors: Yutong He, Alexander Robey, Naoki Murata, Yiding Jiang, Joshua Nathaniel Williams, George J. Pappas, Hamed Hassani, Yuki Mitsufuji, Ruslan Salakhutdinov, J. Zico Kolter,
Abstract要約: PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。 T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
参考スコア（独自算出の注目度）: 149.96612254604986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt engineering is effective for controlling the output of text-to-image (T2I) generative models, but it is also laborious due to the need for manually crafted prompts. This challenge has spurred the development of algorithms for automated prompt generation. However, these methods often struggle with transferability across T2I models, require white-box access to the underlying model, and produce non-intuitive prompts. In this work, we introduce PRISM, an algorithm that automatically identifies human-interpretable and transferable prompts that can effectively generate desired concepts given only black-box access to T2I models. Inspired by large language model (LLM) jailbreaking, PRISM leverages the in-context learning ability of LLMs to iteratively refine the candidate prompts distribution for given reference images. Our experiments demonstrate the versatility and effectiveness of PRISM in generating accurate prompts for objects, styles and images across multiple T2I models, including Stable Diffusion, DALL-E, and Midjourney.
Abstract（参考訳）: プロンプトエンジニアリングは、テキスト・ツー・イメージ(T2I)生成モデルの出力を制御するのに有効であるが、手作業によるプロンプトの必要性から、注意を要する。この課題は、自動プロンプト生成のためのアルゴリズムの開発を加速させた。しかしながら、これらの手法はT2Iモデル間の転送可能性に悩まされ、基盤となるモデルへのホワイトボックスアクセスを必要とし、直観的でないプロンプトを生成する。本研究では,T2Iモデルへのブラックボックスアクセスのみを前提として,人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムであるPRISMを紹介する。大規模言語モデル(LLM)のジェイルブレイクにインスパイアされたPRISMは、LLMのコンテキスト内学習能力を活用して、所定の参照画像に対するプロンプト分布を反復的に洗練する。本実験は, 安定拡散, DALL-E, Midjourneyを含む複数のT2Iモデルに対して, オブジェクト, スタイル, 画像の正確なプロンプトを生成する上で, PRISMの有効性と有効性を示すものである。

関連論文リスト

Test-time Prompt Refinement for Text-to-Image Models [14.505841027491114]
我々は、TIRと呼ばれる基礎となるT2Iモデルの追加トレーニングを必要としないテスト時間プロンプトリファインメントフレームワークを導入する。提案手法では,各生成ステップに続いて,事前訓練されたマルチモーダル大言語モデル(MLLM)が出力画像とユーザのプロンプトを解析する。このクローズドループ戦略は、ブラックボックスT2Iモデルとのプラグアンドプレイ統合を維持しながら、複数のベンチマークデータセット間のアライメントと視覚的コヒーレンスを改善することを実証する。
論文参考訳（メタデータ） (2025-07-22T20:30:13Z)
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2025-01-23T10:57:22Z)
RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文参考訳（メタデータ） (2024-08-25T17:33:40Z)
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。 APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。 APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文参考訳（メタデータ） (2024-06-17T19:22:04Z)
Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文参考訳（メタデータ） (2023-10-11T16:53:40Z)
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文参考訳（メタデータ） (2023-05-24T04:51:04Z)
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-05-23T17:57:09Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。