論文の概要: SSP: A Simple and Safe automatic Prompt engineering method towards
realistic image synthesis on LVM
- arxiv url: http://arxiv.org/abs/2401.01128v1
- Date: Tue, 2 Jan 2024 09:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:08:57.208573
- Title: SSP: A Simple and Safe automatic Prompt engineering method towards
realistic image synthesis on LVM
- Title(参考訳): SSP:LVM上でのリアルな画像合成に向けたシンプルで安全な自動プロンプトエンジニアリング手法
- Authors: Weijin Cheng, Jianzhi Liu, Jiawen Deng, Fuji Ren
- Abstract要約: 最適なカメラ記述を提供することにより、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。
SSPは、他と比較して平均16%のセマンティック一貫性を改善し、安全性指標は48.9%向上した。
- 参考スコア(独自算出の注目度): 10.555398359606922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-to-image (T2I) synthesis has undergone significant
advancements, particularly with the emergence of Large Language Models (LLM)
and their enhancement in Large Vision Models (LVM), greatly enhancing the
instruction-following capabilities of traditional T2I models. Nevertheless,
previous methods focus on improving generation quality but introduce unsafe
factors into prompts. We explore that appending specific camera descriptions to
prompts can enhance safety performance. Consequently, we propose a simple and
safe prompt engineering method (SSP) to improve image generation quality by
providing optimal camera descriptions. Specifically, we create a dataset from
multi-datasets as original prompts. To select the optimal camera, we design an
optimal camera matching approach and implement a classifier for original
prompts capable of automatically matching. Appending camera descriptions to
original prompts generates optimized prompts for further LVM image generation.
Experiments demonstrate that SSP improves semantic consistency by an average of
16% compared to others and safety metrics by 48.9%.
- Abstract(参考訳): 近年,テキスト・トゥ・イメージ(T2I)合成は,特にLLM(Large Language Models)の出現とLVM(Large Vision Models)の強化によって大きな進歩を遂げ,従来のT2Iモデルの命令追従能力を大幅に向上させた。
それにもかかわらず、以前の方法は世代品質の向上に重点を置いているが、プロンプトに安全でない要素を導入する。
プロンプトに特定のカメラ記述を追加することで安全性の向上が期待できる。
その結果、最適なカメラ記述を提供することで、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。
具体的には、マルチデータセットからオリジナルプロンプトとしてデータセットを作成します。
最適なカメラを選択するために、最適なカメラマッチングアプローチを設計し、自動マッチングが可能なオリジナルプロンプトの分類器を実装する。
オリジナルのプロンプトにカメラ記述を適用すると、さらなるLVM画像生成のために最適化されたプロンプトを生成する。
実験によれば、sspは意味的一貫性を平均16%改善し、安全基準は48.9%向上している。
関連論文リスト
- Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization [29.378296359782585]
テキスト・ツー・イメージ(T2I)拡散モデルはテキスト・プロンプトに基づいて高品質で多様な画像を生成する能力で広く認識されている。
T2Iモデルの不適切な画像生成を防ぐための現在の取り組みは、バイパスが容易であり、敵の攻撃に対して脆弱である。
本稿では,PNO(Prompt-Noise Optimization)と呼ばれる,安全でない画像生成を緩和する新しい学習不要手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T05:12:30Z) - TIPO: Text to Image with Text Presampling for Prompt Optimization [16.001151202788304]
TIPOは、言語モデル(LM)によるテキスト・ツー・イメージ(T2I)生成を強化するために設計された革新的なフレームワークである。
LLM(Large Language Models)や強化学習(RL)に依存する従来のアプローチとは異なり、TIPOはトレーニングされたプロンプトデータセットの配布によって、ユーザの入力プロンプトを調整する。
論文 参考訳(メタデータ) (2024-11-12T19:09:45Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers [58.50071292008407]
本稿では,近年の離散最適化手法の突発的逆転問題に対する直接比較について述べる。
逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。
論文 参考訳(メタデータ) (2024-08-12T21:35:59Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。