論文の概要: CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework
- arxiv url: http://arxiv.org/abs/2505.16888v1
- Date: Thu, 22 May 2025 16:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.463947
- Title: CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework
- Title(参考訳): CAIN: 2段階の悪意あるシステムプロンプト生成と精製フレームワークによるLLM-Humans会話のハイジャック
- Authors: Viet Pham, Thai Le,
- Abstract要約: 大規模言語モデル(LLM)は多くの応用が進んでいるが、敵攻撃に弱いことも知られている。
システムプロンプトを操作することでAIと人間の会話をハイジャックする。
この攻撃は、悪意のあるアクターが有害なシステムをネット上に広めることを可能にするため、有害である。
- 参考スコア(独自算出の注目度): 9.250758784663411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have advanced many applications, but are also known to be vulnerable to adversarial attacks. In this work, we introduce a novel security threat: hijacking AI-human conversations by manipulating LLMs' system prompts to produce malicious answers only to specific targeted questions (e.g., "Who should I vote for US President?", "Are Covid vaccines safe?"), while behaving benignly on others. This attack is detrimental as it can enable malicious actors to exercise large-scale information manipulation by spreading harmful but benign-looking system prompts online. To demonstrate such an attack, we develop CAIN, an algorithm that can automatically curate such harmful system prompts for a specific target question in a black-box setting or without the need to access the LLM's parameters. Evaluated on both open-source and commercial LLMs, CAIN demonstrates significant adversarial impact. In untargeted attacks or forcing LLMs to output incorrect answers, CAIN achieves up to 40% F1 degradation on targeted questions while preserving high accuracy on benign inputs. For targeted attacks or forcing LLMs to output specific harmful answers, CAIN achieves over 70% F1 scores on these targeted responses with minimal impact on benign questions. Our results highlight the critical need for enhanced robustness measures to safeguard the integrity and safety of LLMs in real-world applications. All source code will be publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの応用が進んでいるが、敵攻撃に弱いことも知られている。
本稿では, LLMsのシステムを操作してAIと人間の会話をハイジャックすることで, 特定の対象の質問に対してのみ悪意のある回答(例えば, 「米国大統領に投票すべきか?」「コビッドワクチンは安全か?」など)を導き出す。
この攻撃は、悪意あるアクターが、有害だが良心的なシステムプロンプトをオンラインで広めることで、大規模な情報操作を可能にするため、有害である。
このような攻撃を示すアルゴリズムであるCAINを開発した。このような有害なシステムのプロンプトをブラックボックス設定で自動的にキュレートするアルゴリズムで、LCMのパラメータにアクセスする必要がなくなる。
CAINはオープンソースと商用のLLMの両方で評価され、大きな敵対的な影響を示す。
不正な攻撃やLSMに誤った回答を出力させる場合、CAINは目標とする質問に対して最大40%のF1分解を達成し、良質な入力に対して高い精度を保っている。
標的の攻撃やLSMに特定の有害な回答を出力するよう強制するために、CAINはこれらのターゲットの反応に対して70%以上のF1スコアを達成し、良心的な質問に最小限の影響を与える。
実世界のアプリケーションにおけるLLMの完全性と安全性を守るために,ロバストネス対策の強化が不可欠であることを示す。
すべてのソースコードが公開されている。
関連論文リスト
- Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs [28.75283403986172]
大規模言語モデル(LLM)は、プロンプトベースの攻撃に対して脆弱であり、有害なコンテンツや機密情報を生成する。
本稿では,5 つの攻撃ベンチマークにおいて,$mathbf14$ のオープンソース LLM に対する効果的なインジェクション攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-20T13:50:43Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。