論文の概要: SSP: A Simple and Safe automatic Prompt engineering method towards
realistic image synthesis on LVM
- arxiv url: http://arxiv.org/abs/2401.01128v1
- Date: Tue, 2 Jan 2024 09:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:08:57.208573
- Title: SSP: A Simple and Safe automatic Prompt engineering method towards
realistic image synthesis on LVM
- Title(参考訳): SSP:LVM上でのリアルな画像合成に向けたシンプルで安全な自動プロンプトエンジニアリング手法
- Authors: Weijin Cheng, Jianzhi Liu, Jiawen Deng, Fuji Ren
- Abstract要約: 最適なカメラ記述を提供することにより、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。
SSPは、他と比較して平均16%のセマンティック一貫性を改善し、安全性指標は48.9%向上した。
- 参考スコア(独自算出の注目度): 10.555398359606922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-to-image (T2I) synthesis has undergone significant
advancements, particularly with the emergence of Large Language Models (LLM)
and their enhancement in Large Vision Models (LVM), greatly enhancing the
instruction-following capabilities of traditional T2I models. Nevertheless,
previous methods focus on improving generation quality but introduce unsafe
factors into prompts. We explore that appending specific camera descriptions to
prompts can enhance safety performance. Consequently, we propose a simple and
safe prompt engineering method (SSP) to improve image generation quality by
providing optimal camera descriptions. Specifically, we create a dataset from
multi-datasets as original prompts. To select the optimal camera, we design an
optimal camera matching approach and implement a classifier for original
prompts capable of automatically matching. Appending camera descriptions to
original prompts generates optimized prompts for further LVM image generation.
Experiments demonstrate that SSP improves semantic consistency by an average of
16% compared to others and safety metrics by 48.9%.
- Abstract(参考訳): 近年,テキスト・トゥ・イメージ(T2I)合成は,特にLLM(Large Language Models)の出現とLVM(Large Vision Models)の強化によって大きな進歩を遂げ,従来のT2Iモデルの命令追従能力を大幅に向上させた。
それにもかかわらず、以前の方法は世代品質の向上に重点を置いているが、プロンプトに安全でない要素を導入する。
プロンプトに特定のカメラ記述を追加することで安全性の向上が期待できる。
その結果、最適なカメラ記述を提供することで、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。
具体的には、マルチデータセットからオリジナルプロンプトとしてデータセットを作成します。
最適なカメラを選択するために、最適なカメラマッチングアプローチを設計し、自動マッチングが可能なオリジナルプロンプトの分類器を実装する。
オリジナルのプロンプトにカメラ記述を適用すると、さらなるLVM画像生成のために最適化されたプロンプトを生成する。
実験によれば、sspは意味的一貫性を平均16%改善し、安全基準は48.9%向上している。
関連論文リスト
- TIPO: Text to Image with Text Presampling for Prompt Optimization [16.001151202788304]
TIPOは、言語モデル(LM)によるテキスト・ツー・イメージ(T2I)生成を強化するために設計された革新的なフレームワークである。
LLM(Large Language Models)や強化学習(RL)に依存する従来のアプローチとは異なり、TIPOはトレーニングされたプロンプトデータセットの配布によって、ユーザの入力プロンプトを調整する。
論文 参考訳(メタデータ) (2024-11-12T19:09:45Z) - Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers [58.50071292008407]
本稿では,近年の離散最適化手法の突発的逆転問題に対する直接比較について述べる。
逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。
論文 参考訳(メタデータ) (2024-08-12T21:35:59Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。