論文の概要: Position Paper: Towards Implicit Prompt For Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2403.02118v1
- Date: Mon, 4 Mar 2024 15:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:29:18.145366
- Title: Position Paper: Towards Implicit Prompt For Text-To-Image Models
- Title(参考訳): 位置用紙:テキスト対画像モデルの暗黙的プロンプトに向けて
- Authors: Yue Yang, Yuqi lin, Hong Liu, Wenqi Shao, Runjian Chen, Hailong Shang,
Yu Wang, Yu Qiao, Kaipeng Zhang, Ping Luo
- Abstract要約: 本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
- 参考スコア(独自算出の注目度): 58.90396979973776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) models have had great success, and many benchmarks
have been proposed to evaluate their performance and safety. However, they only
consider explicit prompts while neglecting implicit prompts (hint at a target
without explicitly mentioning it). These prompts may get rid of safety
constraints and pose potential threats to the applications of these models.
This position paper highlights the current state of T2I models toward implicit
prompts. We present a benchmark named ImplicitBench and conduct an
investigation on the performance and impacts of implicit prompts with popular
T2I models. Specifically, we design and collect more than 2,000 implicit
prompts of three aspects: General Symbols, Celebrity Privacy, and
Not-Safe-For-Work (NSFW) Issues, and evaluate six well-known T2I models'
capabilities under these implicit prompts. Experiment results show that (1) T2I
models are able to accurately create various target symbols indicated by
implicit prompts; (2) Implicit prompts bring potential risks of privacy leakage
for T2I models. (3) Constraints of NSFW in most of the evaluated T2I models can
be bypassed with implicit prompts. We call for increased attention to the
potential and risks of implicit prompts in the T2I community and further
investigation into the capabilities and impacts of implicit prompts, advocating
for a balanced approach that harnesses their benefits while mitigating their
risks.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)モデルは大きな成功を収め、その性能と安全性を評価するために多くのベンチマークが提案されている。
しかし、明示的なプロンプトのみを考慮し、暗黙的なプロンプトを無視する(明示的に言及せずにターゲットに隠れる)。
これらのプロンプトは安全性の制約を排除し、これらのモデルの応用に潜在的な脅威をもたらす可能性がある。
本稿では,T2Iモデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、一般的なT2Iモデルを用いた暗黙的なプロンプトの性能と影響について調査する。
具体的には、一般シンボル、セレブプライバシ、Not-Safe-For-Work(NSFW)問題という3つの側面の2000以上の暗黙的なプロンプトを設計し、収集し、これらの暗黙的なプロンプトの下で6つのよく知られたT2Iモデルの能力を評価する。
実験結果から,(1)T2Iモデルが暗黙のプロンプトによって示される様々なターゲットシンボルを正確に生成できること,(2)暗黙のプロンプトがT2Iモデルのプライバシー漏洩の潜在的なリスクをもたらすことが示唆された。
(3) 評価されたほとんどのT2IモデルにおけるNSFWの制約は暗黙のプロンプトでバイパスすることができる。
我々は,t2iコミュニティにおける暗黙のプロンプトの可能性とリスクに対する注意の高まりと,暗黙のプロンプトの能力と影響に関するさらなる調査を求め,そのリスクを緩和しながらそのメリットを活用するバランスのとれたアプローチを提唱する。
関連論文リスト
- T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z) - SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。
直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。
我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty [45.075328946207826]
そこで本研究では,不確かさを解消するためのインタフェースを備えたプロアクティブなT2Iエージェントの設計を提案する。
このようなエージェントの簡単なプロトタイプを作成し、人間の研究と自動評価の両方を通してその有効性を検証する。
我々は,これらのT2Iエージェントが,標準的なシングルターンT2I世代よりも少なくとも2倍高いVQAScoreのアライメントを達成するために,有意な質問をし,重要な情報を引き出すことができたことを観察した。
論文 参考訳(メタデータ) (2024-12-09T18:56:32Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models [34.75181539924584]
そのようなeXaggerated Safetyの振る舞いを特定するために、XSTestと呼ばれる新しいテストスイートを紹介します。
我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおける体系的な障害モードを強調します。
論文 参考訳(メタデータ) (2023-08-02T16:30:40Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。