論文の概要: PROMPTMINER: Black-Box Prompt Stealing against Text-to-Image Generative Models via Reinforcement Learning and Fuzz Optimization
- arxiv url: http://arxiv.org/abs/2511.22119v1
- Date: Thu, 27 Nov 2025 05:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.407053
- Title: PROMPTMINER: Black-Box Prompt Stealing against Text-to-Image Generative Models via Reinforcement Learning and Fuzz Optimization
- Title(参考訳): PROMPTMINER:強化学習とファズ最適化によるテキスト・画像生成モデルに対するブラックボックスプロンプトステアリング
- Authors: Mingzhe Li, Renhao Zhang, Zhiyang Wen, Siqi Pan, Bruno Castro da Silva, Juan Zhai, Shiqing Ma,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは、テキスト・プロンプトから直接リアルで高品質な画像を合成することができる。
プロンプト盗難攻撃は、慎重に設計されたプロンプトの無許可の抽出と再利用を可能にする。
本稿では,タスクを2つのフェーズに分離するブラックボックスプロンプトステーリングフレームワークであるProMPTMINERを提案する。
ProMPTMINERは、CLIPの類似性は0.958まで、SBERTとのテキストアライメントは0.751までで、すべてのベースラインを超えている。
- 参考スコア(独自算出の注目度): 27.094857962888288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) generative models such as Stable Diffusion and FLUX can synthesize realistic, high-quality images directly from textual prompts. The resulting image quality depends critically on well-crafted prompts that specify both subjects and stylistic modifiers, which have become valuable digital assets. However, the rising value and ubiquity of high-quality prompts expose them to security and intellectual-property risks. One key threat is the prompt stealing attack, i.e., the task of recovering the textual prompt that generated a given image. Prompt stealing enables unauthorized extraction and reuse of carefully engineered prompts, yet it can also support beneficial applications such as data attribution, model provenance analysis, and watermarking validation. Existing approaches often assume white-box gradient access, require large-scale labeled datasets for supervised training, or rely solely on captioning without explicit optimization, limiting their practicality and adaptability. To address these challenges, we propose PROMPTMINER, a black-box prompt stealing framework that decouples the task into two phases: (1) a reinforcement learning-based optimization phase to reconstruct the primary subject, and (2) a fuzzing-driven search phase to recover stylistic modifiers. Experiments across multiple datasets and diffusion backbones demonstrate that PROMPTMINER achieves superior results, with CLIP similarity up to 0.958 and textual alignment with SBERT up to 0.751, surpassing all baselines. Even when applied to in-the-wild images with unknown generators, it outperforms the strongest baseline by 7.5 percent in CLIP similarity, demonstrating better generalization. Finally, PROMPTMINER maintains strong performance under defensive perturbations, highlighting remarkable robustness. Code: https://github.com/aaFrostnova/PromptMiner
- Abstract(参考訳): 安定拡散やFLUXのようなテキスト・ツー・イメージ(T2I)生成モデルは、テキスト・プロンプトから直接リアルで高品質な画像を合成することができる。
結果として得られる画質は、価値あるデジタル資産となった主題と形式的修飾子の両方を規定する巧妙なプロンプトに大きく依存する。
しかし、高品質なプロンプトの価値とユビキタス化は、セキュリティや知的財産権のリスクにさらされている。
重要な脅威の1つは、ある画像を生成するテキストプロンプトを回復するタスクであるプロンプト盗難攻撃である。
Prompt stealingは、慎重に設計されたプロンプトの不正な抽出と再利用を可能にするが、データ属性、モデル証明分析、透かし検証などの有益なアプリケーションもサポートする。
既存のアプローチでは、ホワイトボックスの勾配アクセスを前提としたり、教師付きトレーニングのために大規模ラベル付きデータセットを必要としたり、明示的な最適化なしにキャプションのみに依存して、実用性と適応性を制限したりすることがよくある。
これらの課題に対処するために,(1)主課題を再構築する強化学習に基づく最適化フェーズ,(2)形式的修飾子を復元するファジング駆動探索フェーズの2つのフェーズに,タスクを分離するブラックボックスプロンプトステアリングフレームワークであるProMPTMINERを提案する。
複数のデータセットと拡散バックボーンにわたる実験により、PROMPTMINERはより優れた結果が得られ、CLIPの類似性は0.958まで、SBERTとのテキストアライメントは0.751まで向上した。
未知のジェネレータを持つWildイメージに適用しても、CLIPの類似性は7.5パーセント向上し、より一般化されている。
最後に、PrompTMINERは防御的摂動下での強い性能を維持し、顕著な頑丈さを強調している。
コード:https://github.com/aaFrostnova/PromptMiner
関連論文リスト
- RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration [94.49712266736141]
RAM++はオールインワンイメージ復元のための2段階のフレームワークである。
高レベルのセマンティック理解と低レベルのテクスチャ生成を統合する。
極端なシナリオでは、既存の劣化指向のメソッドの制限に対処します。
論文 参考訳(メタデータ) (2025-09-15T15:24:15Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、トーケン毎のプロンプト重量を適応的に調整することに基づく、単純で効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [27.32589928097192]
ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初の普遍的プロンプトを提案する。
提案手法は,不適切な画像を生成する際の様々なT2Iモデルの可能性を効果的に低減することができる。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval [29.838375158101027]
CLIP(Contrastive Language-image Pre-training)は,ゼロショット分類能力に優れていた。
本稿では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つの重要なステップからなる新しい推論手法であるX-MoReを提案する。
X-MoReは、追加のトレーニングを必要とせずに、さまざまなタスクセットで堅牢なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-29T13:02:35Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。