論文の概要: Hacking Back the AI-Hacker: Prompt Injection as a Defense Against LLM-driven Cyberattacks
- arxiv url: http://arxiv.org/abs/2410.20911v2
- Date: Mon, 18 Nov 2024 09:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:59.861925
- Title: Hacking Back the AI-Hacker: Prompt Injection as a Defense Against LLM-driven Cyberattacks
- Title(参考訳): AIハッカーをハックする: LLMによるサイバー攻撃に対する防御手段としてのプロンプトインジェクション
- Authors: Dario Pasquini, Evgenios M. Kornaropoulos, Giuseppe Ateniese,
- Abstract要約: 大規模言語モデル(LLM)はサイバー攻撃の自動化にますます活用されている。
マンティス(Mantis)は、LLMが悪意ある操作を弱めるために敵の入力に対する感受性を悪用するフレームワークである。
マンティスはLLMによる自動攻撃に対して95%以上の効果を継続的に達成した。
- 参考スコア(独自算出の注目度): 15.726286532500971
- License:
- Abstract: Large language models (LLMs) are increasingly being harnessed to automate cyberattacks, making sophisticated exploits more accessible and scalable. In response, we propose a new defense strategy tailored to counter LLM-driven cyberattacks. We introduce Mantis, a defensive framework that exploits LLMs' susceptibility to adversarial inputs to undermine malicious operations. Upon detecting an automated cyberattack, Mantis plants carefully crafted inputs into system responses, leading the attacker's LLM to disrupt their own operations (passive defense) or even compromise the attacker's machine (active defense). By deploying purposefully vulnerable decoy services to attract the attacker and using dynamic prompt injections for the attacker's LLM, Mantis can autonomously hack back the attacker. In our experiments, Mantis consistently achieved over 95% effectiveness against automated LLM-driven attacks. To foster further research and collaboration, Mantis is available as an open-source tool: https://github.com/pasquini-dario/project_mantis
- Abstract(参考訳): 大規模言語モデル(LLM)はサイバー攻撃の自動化にますます活用され、高度なエクスプロイトがよりアクセスしやすく、スケーラブルになっている。
そこで本研究では,LSMによるサイバー攻撃に対抗するための新たな防衛戦略を提案する。
我々は、悪意ある操作を損なうための敵対的な入力に対するLLMの感受性を利用する防御フレームワークであるMantisを紹介する。
自動サイバー攻撃を検出すると、マンティスはシステム応答への入力を慎重に作り、攻撃者のLSMが自身の操作(パッシブ・ディフェンス)を妨害したり、攻撃者のマシン(アクティブ・ディフェンス)に侵入したりする。
攻撃者を惹きつけるために意図的に脆弱なデコイサービスをデプロイし、攻撃者のLSMに動的プロンプトインジェクションを使用することで、Mantisは自動で攻撃者をハックすることができる。
我々の実験では、マンティスはLLMによる自動攻撃に対して95%以上の効果を連続的に達成した。
さらなる研究とコラボレーションを促進するため、Mantisはオープンソースツールとして利用できる。
関連論文リスト
- Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。
我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。
以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文 参考訳(メタデータ) (2024-10-20T14:07:24Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。
大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。
本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T07:43:11Z) - AutoAttacker: A Large Language Model Guided System to Implement
Automatic Cyber-attacks [13.955084410934694]
大規模言語モデル (LLM) は、自然言語処理における印象的な結果を示している。
LLMは必然的に前進するので、前と後の両方の攻撃段階を自動化できるかもしれない。
この研究は、防衛システムやチームが、野生で使用する前に予防的に新しい攻撃行動を検出することを学ぶのに役立つ。
論文 参考訳(メタデータ) (2024-03-02T00:10:45Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Arms Race in Adversarial Malware Detection: A Survey [33.8941961394801]
悪意あるソフトウェア(マルウェア)は、機械学習(ML)技術に対処しなければならない主要なサイバー脅威である。
MLは敵例として知られる攻撃に対して脆弱である。
ディフェンダーの機能セットを知ることは、転送攻撃の成功に不可欠である。
敵の訓練の有効性は、最も強力な攻撃を識別するディフェンダーの能力に依存する。
論文 参考訳(メタデータ) (2020-05-24T07:20:42Z) - On Certifying Robustness against Backdoor Attacks via Randomized
Smoothing [74.79764677396773]
ランダム化平滑化法(ランダム化平滑化)と呼ばれる最近の手法を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。
本研究は, バックドア攻撃に対するロバスト性を証明するために, ランダムな平滑化を用いた理論的実現可能性を示すものである。
既存の無作為な平滑化手法は、バックドア攻撃に対する防御効果に限界がある。
論文 参考訳(メタデータ) (2020-02-26T19:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。