論文の概要: Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message
- arxiv url: http://arxiv.org/abs/2507.04673v1
- Date: Mon, 07 Jul 2025 05:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.284913
- Title: Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message
- Title(参考訳): トロイの木馬のプロンプト:偽造アシスタントメッセージによる会話型マルチモーダルモデルのジェイルブレイク
- Authors: Wei Duan, Li Qian,
- Abstract要約: 本稿では,新しいジェイルブレイク技術であるトロイの木馬プロンプティングを紹介する。
悪意のあるペイロードがモデル分散メッセージに注入され、続いて悪意のあるユーザプロンプトが有害なコンテンツ生成をトリガーする。
- 参考スコア(独自算出の注目度): 4.283367691796691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of conversational interfaces has greatly enhanced LLM usability by leveraging dialogue history for sophisticated reasoning. However, this reliance introduces an unexplored attack surface. This paper introduces Trojan Horse Prompting, a novel jailbreak technique. Adversaries bypass safety mechanisms by forging the model's own past utterances within the conversational history provided to its API. A malicious payload is injected into a model-attributed message, followed by a benign user prompt to trigger harmful content generation. This vulnerability stems from Asymmetric Safety Alignment: models are extensively trained to refuse harmful user requests but lack comparable skepticism towards their own purported conversational history. This implicit trust in its "past" creates a high-impact vulnerability. Experimental validation on Google's Gemini-2.0-flash-preview-image-generation shows Trojan Horse Prompting achieves a significantly higher Attack Success Rate (ASR) than established user-turn jailbreaking methods. These findings reveal a fundamental flaw in modern conversational AI security, necessitating a paradigm shift from input-level filtering to robust, protocol-level validation of conversational context integrity.
- Abstract(参考訳): 対話インタフェースの台頭は、洗練された推論のために対話履歴を活用することで、LLMのユーザビリティを大幅に向上させた。
しかし、この依存は未発見の攻撃面をもたらす。
本稿では,新しいジェイルブレイク技術であるトロイの木馬プロンプティングを紹介する。
APIに提供される会話履歴内に、モデル自身の過去の発話をフォージすることで、安全メカニズムをバイパスする。
悪意のあるペイロードがモデル分散メッセージに注入され、続いて悪意のあるユーザプロンプトが有害なコンテンツ生成をトリガーする。
この脆弱性は非対称な安全アライメント(Asymmetric Safety Alignment)に起因している。
この“パスト”に対する暗黙の信頼は、インパクトの高い脆弱性を生み出します。
GoogleのGemini-2.0-flash-preview-image-generationに関する実験的検証によると、Trojan Horse Promptingは、既存のユーザターンジェイルブレイクメソッドよりもはるかに高いアタック成功率(ASR)を達成する。
これらの結果は、現代の会話型AIセキュリティの根本的な欠陥を明らかにし、入力レベルのフィルタリングから、会話型コンテキスト整合性の堅牢でプロトコルレベルの検証へのパラダイムシフトを必要としている。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation [12.376058015074186]
本稿では,これらの攻撃の成功率を高めるために,対話履歴を活用する新しいジェイルブレイクパラダイムであるダイアログインジェクションアタック(DIA)を導入する。
DIAはブラックボックスで動作し、チャットAPIへのアクセスやLLMのチャットテンプレートの知識のみを必要とする。
Llama-3.1 や GPT-4o など最近の LLM では,DIA が攻撃成功率を達成している。
論文 参考訳(メタデータ) (2025-03-11T09:00:45Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Exploring Backdoor Vulnerabilities of Chat Models [31.802374847226393]
近年の研究では、LLM(Large Language Models)がバックドアアタック(Backdoor Attack)と呼ばれるセキュリティの脅威を受けやすいことが示されている。
本稿では,異なるラウンドのユーザ入力に対して複数のトリガシナリオを分散することで,チャットモデルに対する新たなバックドア攻撃手法を提案する。
実験により,チャットモデルの正常な性能を維持しつつ,高い攻撃成功率を達成できることが実証された。
論文 参考訳(メタデータ) (2024-04-03T02:16:53Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models [29.66515518909497]
TrojLLMは、普遍的でステルス的なトリガーを生成する自動かつブラックボックスフレームワークである。
個別のプロンプト内にトロイの木馬を埋め込むことをサポートし、トリガーの攻撃の全体的な効果と精度を高める。
実世界のブラックボックスLPM APIにおけるテキストプロンプトにTrojLLMを効果的に挿入する能力を示す実験と結果を得た。
論文 参考訳(メタデータ) (2023-06-12T01:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。