論文の概要: Iterative Prompt Refinement for Safer Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.13760v1
- Date: Wed, 17 Sep 2025 07:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.754505
- Title: Iterative Prompt Refinement for Safer Text-to-Image Generation
- Title(参考訳): テキスト・ツー・イメージ生成のための反復的プロンプト補正
- Authors: Jinwoo Jeon, JunHyeok Oh, Hayeong Lee, Byung-Jun Lee,
- Abstract要約: 既存の安全手法は、大言語モデル(LLM)を用いて、通常、プロンプトを洗練させる。
本稿では、視覚言語モデル(VLM)を用いて、入力プロンプトと生成された画像の両方を解析する反復的プロンプト改善アルゴリズムを提案する。
提案手法は,ユーザの意図と整合性を損なうことなく,より安全なT2Iコンテンツを生成するための実用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 4.174845397893041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) models have made remarkable progress in generating images from text prompts, but their output quality and safety still depend heavily on how prompts are phrased. Existing safety methods typically refine prompts using large language models (LLMs), but they overlook the images produced, which can result in unsafe outputs or unnecessary changes to already safe prompts. To address this, we propose an iterative prompt refinement algorithm that uses Vision Language Models (VLMs) to analyze both the input prompts and the generated images. By leveraging visual feedback, our method refines prompts more effectively, improving safety while maintaining user intent and reliability comparable to existing LLM-based approaches. Additionally, we introduce a new dataset labeled with both textual and visual safety signals using off-the-shelf multi-modal LLM, enabling supervised fine-tuning. Experimental results demonstrate that our approach produces safer outputs without compromising alignment with user intent, offering a practical solution for generating safer T2I content. Our code is available at https://github.com/ku-dmlab/IPR. \textbf{\textcolor{red}WARNING: This paper contains examples of harmful or inappropriate images generated by models.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトから画像を生成するのに顕著な進歩を遂げているが、その出力品質と安全性は、プロンプトがどのように表現されるかに大きく依存している。
既存の安全手法は、通常、大きな言語モデル(LLM)を使用してプロンプトを洗練させるが、生成された画像を見落としているため、安全でない出力や、既に安全なプロンプトに対する不要な変更をもたらす可能性がある。
そこで本研究では、視覚言語モデル(VLM)を用いて、入力プロンプトと生成された画像の両方を解析する反復的プロンプト改善アルゴリズムを提案する。
視覚フィードバックを活用することにより,既存のLCM手法に匹敵するユーザ意図と信頼性を維持しつつ,安全性を向上する。
さらに,市販のマルチモーダルLCMを用いて,テキスト信号と視覚的安全信号の両方をラベル付けした新しいデータセットを導入し,教師付き微調整を可能にした。
実験の結果,提案手法はユーザ意図と整合性を損なうことなく,より安全なT2Iコンテンツを生成するための実用的なソリューションを提供する。
私たちのコードはhttps://github.com/ku-dmlab/IPR.comで公開されています。
textbf{\textcolor{red}WARNING: モデルによって生成された有害または不適切なイメージの例を含む。
関連論文リスト
- MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [27.32589928097192]
ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初の普遍的プロンプトを提案する。
提案手法は,不適切な画像を生成する際の様々なT2Iモデルの可能性を効果的に低減することができる。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。