論文の概要: Cybersecurity AI: Hacking the AI Hackers via Prompt Injection
- arxiv url: http://arxiv.org/abs/2508.21669v1
- Date: Fri, 29 Aug 2025 14:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.080311
- Title: Cybersecurity AI: Hacking the AI Hackers via Prompt Injection
- Title(参考訳): サイバーセキュリティAI:プロンプトインジェクションでAIハッカーをハック
- Authors: Víctor Mayoral-Vilches, Per Mannermaa Rynning,
- Abstract要約: われわれは、AIを利用したサイバーセキュリティツールが即時インジェクション攻撃によって自身に対抗できることを実証する。
プロンプト注入はクロスサイトスクリプティング(XSS)を連想させる
サイバーセキュリティAIフレームワークとそのCLIツールに対する概念実証エクスプロイトを提案する。
- 参考スコア(独自算出の注目度): 0.5043403308699188
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We demonstrate how AI-powered cybersecurity tools can be turned against themselves through prompt injection attacks. Prompt injection is reminiscent of cross-site scripting (XSS): malicious text is hidden within seemingly trusted content, and when the system processes it, that text is transformed into unintended instructions. When AI agents designed to find and exploit vulnerabilities interact with malicious web servers, carefully crafted reponses can hijack their execution flow, potentially granting attackers system access. We present proof-of-concept exploits against the Cybersecurity AI (CAI) framework and its CLI tool, and detail our mitigations against such attacks in a multi-layered defense implementation. Our findings indicate that prompt injection is a recurring and systemic issue in LLM-based architectures, one that will require dedicated work to address, much as the security community has had to do with XSS in traditional web applications.
- Abstract(参考訳): われわれは、AIを利用したサイバーセキュリティツールが即時インジェクション攻撃によって自身に対抗できることを実証する。
プロンプトインジェクションはクロスサイトスクリプティング(XSS)を連想させる: 悪意のあるテキストは一見信頼されたコンテンツの中に隠され、システムがそれを処理すると、そのテキストは意図しない命令に変換される。
悪意のあるWebサーバと対話する脆弱性を発見し、悪用するAIエージェントが設計された場合、慎重に作られたレポジトリは実行フローをハイジャックし、攻撃者のシステムアクセスを許可する可能性がある。
我々は、サイバーセキュリティAI(CAI)フレームワークとそのCLIツールに対する概念実証のエクスプロイトを提案し、多層防御実装における攻撃に対する当社の軽減について詳述する。
従来のWebアプリケーションではセキュリティコミュニティがXSSに関係していたように,この問題に対処するためには専用の作業が必要になります。
関連論文リスト
- Prompt Injection 2.0: Hybrid AI Threats [0.0]
我々はプレアンブルの基礎研究と緩和技術を構築し、現代の脅威に対してそれらを評価した。
我々は,迅速なアイソレーション,ランタイムセキュリティ,特権分離と新たな脅威検出機能を組み合わせたアーキテクチャソリューションを提案する。
論文 参考訳(メタデータ) (2025-07-17T14:33:36Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。