論文の概要: Cybersecurity AI: Hacking the AI Hackers via Prompt Injection
- arxiv url: http://arxiv.org/abs/2508.21669v1
- Date: Fri, 29 Aug 2025 14:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.080311
- Title: Cybersecurity AI: Hacking the AI Hackers via Prompt Injection
- Title(参考訳): サイバーセキュリティAI:プロンプトインジェクションでAIハッカーをハック
- Authors: Víctor Mayoral-Vilches, Per Mannermaa Rynning,
- Abstract要約: われわれは、AIを利用したサイバーセキュリティツールが即時インジェクション攻撃によって自身に対抗できることを実証する。
プロンプト注入はクロスサイトスクリプティング(XSS)を連想させる
サイバーセキュリティAIフレームワークとそのCLIツールに対する概念実証エクスプロイトを提案する。
- 参考スコア(独自算出の注目度): 0.5043403308699188
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We demonstrate how AI-powered cybersecurity tools can be turned against themselves through prompt injection attacks. Prompt injection is reminiscent of cross-site scripting (XSS): malicious text is hidden within seemingly trusted content, and when the system processes it, that text is transformed into unintended instructions. When AI agents designed to find and exploit vulnerabilities interact with malicious web servers, carefully crafted reponses can hijack their execution flow, potentially granting attackers system access. We present proof-of-concept exploits against the Cybersecurity AI (CAI) framework and its CLI tool, and detail our mitigations against such attacks in a multi-layered defense implementation. Our findings indicate that prompt injection is a recurring and systemic issue in LLM-based architectures, one that will require dedicated work to address, much as the security community has had to do with XSS in traditional web applications.
- Abstract(参考訳): われわれは、AIを利用したサイバーセキュリティツールが即時インジェクション攻撃によって自身に対抗できることを実証する。
プロンプトインジェクションはクロスサイトスクリプティング(XSS)を連想させる: 悪意のあるテキストは一見信頼されたコンテンツの中に隠され、システムがそれを処理すると、そのテキストは意図しない命令に変換される。
悪意のあるWebサーバと対話する脆弱性を発見し、悪用するAIエージェントが設計された場合、慎重に作られたレポジトリは実行フローをハイジャックし、攻撃者のシステムアクセスを許可する可能性がある。
我々は、サイバーセキュリティAI(CAI)フレームワークとそのCLIツールに対する概念実証のエクスプロイトを提案し、多層防御実装における攻撃に対する当社の軽減について詳述する。
従来のWebアプリケーションではセキュリティコミュニティがXSSに関係していたように,この問題に対処するためには専用の作業が必要になります。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents [8.923854146974783]
本稿では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。
私たちのベンチマークは、単なるテキスト出力ではなく、現実世界のアクションに影響を与えるインジェクションを強調することで、以前の作業を超えています。
アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
論文 参考訳(メタデータ) (2025-11-25T18:28:35Z) - In-Browser LLM-Guided Fuzzing for Real-Time Prompt Injection Testing in Agentic AI Browsers [0.0]
大規模言語モデル(LLM)ベースのエージェントがWebブラウザに統合され、Webタスクの強力な自動化を提供する。
それらは間接的なインジェクション攻撃に対して脆弱で、Webページに隠された悪意のある命令は、エージェントを不必要なアクションに騙す。
本稿では,ブラウザ上で完全に動作し,LDMによって誘導される新しいファジィングフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-10-15T13:39:13Z) - Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Prompt Injection 2.0: Hybrid AI Threats [0.0]
我々はプレアンブルの基礎研究と緩和技術を構築し、現代の脅威に対してそれらを評価した。
我々は,迅速なアイソレーション,ランタイムセキュリティ,特権分離と新たな脅威検出機能を組み合わせたアーキテクチャソリューションを提案する。
論文 参考訳(メタデータ) (2025-07-17T14:33:36Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。