論文の概要: Reinforcement Learning-Based Prompt Template Stealing for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2510.00046v1
- Date: Sat, 27 Sep 2025 12:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.133929
- Title: Reinforcement Learning-Based Prompt Template Stealing for Text-to-Image Models
- Title(参考訳): テキスト・ツー・イメージモデルのための強化学習型プロンプトテンプレートステアリング
- Authors: Xiaotian Zou,
- Abstract要約: 少数のサンプル画像のみからテンプレートを復元する強化学習フレームワークであるLStealerを提案する。
RLStealerは最先端のパフォーマンスを得ると同時に、攻撃コストを既存のベースラインに必要な13%以下に削減する。
我々の研究は、即時取引に固有の緊急のセキュリティ脅威を強調し、保護基準の策定の基礎となる。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have transformed text-to-image workflows, allowing designers to create novel visual concepts with unprecedented speed. This progress has given rise to a thriving prompt trading market, where curated prompts that induce trademark styles are bought and sold. Although commercially attractive, prompt trading also introduces a largely unexamined security risk: the prompts themselves can be stolen. In this paper, we expose this vulnerability and present RLStealer, a reinforcement learning based prompt inversion framework that recovers its template from only a small set of example images. RLStealer treats template stealing as a sequential decision making problem and employs multiple similarity based feedback signals as reward functions to effectively explore the prompt space. Comprehensive experiments on publicly available benchmarks demonstrate that RLStealer gets state-of-the-art performance while reducing the total attack cost to under 13% of that required by existing baselines. Our further analysis confirms that RLStealer can effectively generalize across different image styles to efficiently steal unseen prompt templates. Our study highlights an urgent security threat inherent in prompt trading and lays the groundwork for developing protective standards in the emerging MLLMs marketplace.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキストから画像へのワークフローを変換し、デザイナが前例のないスピードで新しい視覚概念を作成できるようにする。
この進展は、商標スタイルを誘導するキュレートされたプロンプトが売買され、繁栄する商取引市場を生み出した。
商業的に魅力的だが、プロンプト取引は、ほとんど検討されていないセキュリティリスクも生み出す:プロンプト自体を盗むことができる。
本稿では、この脆弱性を公開し、少数のサンプル画像からのみテンプレートを復元する強化学習ベースのプロンプトインバージョンフレームワークであるLStealerを提示する。
RLStealerはテンプレート盗難をシーケンシャルな意思決定問題として扱い、複数の類似性に基づくフィードバック信号を報酬関数として使い、プロンプト空間を効果的に探索する。
公開されているベンチマークに関する総合的な実験は、RSStealerが最先端のパフォーマンスを得る一方で、既存のベースラインに必要な攻撃コストの13%以下に削減されていることを示している。
さらなる解析により,RTStealerは画像スタイルの異なる領域を効果的に一般化し,目に見えないプロンプトテンプレートを効率的に盗むことができることを確認した。
本研究は、即時取引に固有の緊急セキュリティ脅威を強調し、新興MLLMマーケットプレースにおける保護基準策定の基礎となる。
関連論文リスト
- AMCR: A Framework for Assessing and Mitigating Copyright Risks in Generative Models [14.928831547948326]
本稿では,著作権リスクの評価と緩和について紹介する。
AMCRは、リスクのあるプロンプトを安全で非感受性な形式に体系的に再構築することで、プロンプトベースの戦略を構築する。
実験は、潜伏する著作権リスクを暴露し緩和するAMCRの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-31T00:00:03Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - CopyJudge: Automated Copyright Infringement Identification and Mitigation in Text-to-Image Diffusion Models [58.58208005178676]
我々は,新しい自動侵害識別フレームワークであるCopyJudgeを提案する。
我々は, 抽象フィルタ比較テストフレームワークを用いて, 侵害の可能性を評価する。
インフレクションを自動最適化する汎用LVLM方式の緩和戦略を導入する。
論文 参考訳(メタデータ) (2025-02-21T08:09:07Z) - Vulnerability of Text-to-Image Models to Prompt Template Stealing: A Differential Evolution Approach [16.619255714170222]
簡単な難易度と難易度に分類した50のテンプレートと450のイメージからなるベンチマークであるPrismを紹介する。
EvoStealerは,モデル微調整なしで動作可能なテンプレートステアリング手法である。
評価の結果,EvoStealerの盗難テンプレートはオリジナルと非常によく似た画像を再現し,他の被験者に効果的に一般化できることがわかった。
論文 参考訳(メタデータ) (2025-02-20T05:52:10Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Prompt Stealing Attacks Against Text-to-Image Generation Models [27.7826502104361]
専門のマーケットプレースで高品質なプロンプトを取引するトレンドが生まれている。
迅速な盗難攻撃が成功すると、プロンプトエンジニアの知的財産を直接侵害する。
本稿では,PmptStealer を用いた簡易かつ効果的なプロンプト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2023-02-20T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。