論文の概要: SSP: A Simple and Safe automatic Prompt engineering method towards
realistic image synthesis on LVM
- arxiv url: http://arxiv.org/abs/2401.01128v1
- Date: Tue, 2 Jan 2024 09:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:08:57.208573
- Title: SSP: A Simple and Safe automatic Prompt engineering method towards
realistic image synthesis on LVM
- Title(参考訳): SSP:LVM上でのリアルな画像合成に向けたシンプルで安全な自動プロンプトエンジニアリング手法
- Authors: Weijin Cheng, Jianzhi Liu, Jiawen Deng, Fuji Ren
- Abstract要約: 最適なカメラ記述を提供することにより、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。
SSPは、他と比較して平均16%のセマンティック一貫性を改善し、安全性指標は48.9%向上した。
- 参考スコア(独自算出の注目度): 10.555398359606922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-to-image (T2I) synthesis has undergone significant
advancements, particularly with the emergence of Large Language Models (LLM)
and their enhancement in Large Vision Models (LVM), greatly enhancing the
instruction-following capabilities of traditional T2I models. Nevertheless,
previous methods focus on improving generation quality but introduce unsafe
factors into prompts. We explore that appending specific camera descriptions to
prompts can enhance safety performance. Consequently, we propose a simple and
safe prompt engineering method (SSP) to improve image generation quality by
providing optimal camera descriptions. Specifically, we create a dataset from
multi-datasets as original prompts. To select the optimal camera, we design an
optimal camera matching approach and implement a classifier for original
prompts capable of automatically matching. Appending camera descriptions to
original prompts generates optimized prompts for further LVM image generation.
Experiments demonstrate that SSP improves semantic consistency by an average of
16% compared to others and safety metrics by 48.9%.
- Abstract(参考訳): 近年,テキスト・トゥ・イメージ(T2I)合成は,特にLLM(Large Language Models)の出現とLVM(Large Vision Models)の強化によって大きな進歩を遂げ,従来のT2Iモデルの命令追従能力を大幅に向上させた。
それにもかかわらず、以前の方法は世代品質の向上に重点を置いているが、プロンプトに安全でない要素を導入する。
プロンプトに特定のカメラ記述を追加することで安全性の向上が期待できる。
その結果、最適なカメラ記述を提供することで、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。
具体的には、マルチデータセットからオリジナルプロンプトとしてデータセットを作成します。
最適なカメラを選択するために、最適なカメラマッチングアプローチを設計し、自動マッチングが可能なオリジナルプロンプトの分類器を実装する。
オリジナルのプロンプトにカメラ記述を適用すると、さらなるLVM画像生成のために最適化されたプロンプトを生成する。
実験によれば、sspは意味的一貫性を平均16%改善し、安全基準は48.9%向上している。
関連論文リスト
- Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [29.31648048610413]
ブラックボックスシナリオにおける安全なT2I生成のための最初のユニバーサルプロンプトを提案する。
提案手法は,不適切な画像を生成する際に,様々なT2Iモデルの有効性を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image
Synthesis [14.852061933308276]
極めて単純な生記述から高品質なプロンプトを生成するための深層生成モデルである BeautifulPrompt を提案する。
私たちの研究では、まず、高品質で高品質な収集プロンプトペアよりも美しいプロンプトモデルを微調整しました。
さらに、より優れたテキスト・ツー・イメージ生成サービスを提供するために、クラウドネイティブなAIプラットフォームへのBeautifulPromptの統合についても紹介します。
論文 参考訳(メタデータ) (2023-11-12T06:39:00Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。