論文の概要: To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack
- arxiv url: http://arxiv.org/abs/2602.02595v1
- Date: Sun, 01 Feb 2026 12:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.962222
- Title: To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack
- Title(参考訳): サイバー攻撃を防げるには、AIエージェントにハッキングを教える必要がある
- Authors: Terry Yue Zhuo, Yangruibo Ding, Wenbo Guo, Ruijie Meng,
- Abstract要約: AIエージェントは、数千のターゲットにわたる脆弱性発見とエクスプロイトを自動化する。
現在の開発者は、データフィルタリング、安全アライメント、出力ガードレールによる誤用を防止することに重点を置いている。
AIエージェントによるサイバー攻撃は避けられないものであり、防御戦略の根本的な変更が必要であると我々は主張する。
- 参考スコア(独自算出の注目度): 14.333336222782856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For over a decade, cybersecurity has relied on human labor scarcity to limit attackers to high-value targets manually or generic automated attacks at scale. Building sophisticated exploits requires deep expertise and manual effort, leading defenders to assume adversaries cannot afford tailored attacks at scale. AI agents break this balance by automating vulnerability discovery and exploitation across thousands of targets, needing only small success rates to remain profitable. Current developers focus on preventing misuse through data filtering, safety alignment, and output guardrails. Such protections fail against adversaries who control open-weight models, bypass safety controls, or develop offensive capabilities independently. We argue that AI-agent-driven cyber attacks are inevitable, requiring a fundamental shift in defensive strategy. In this position paper, we identify why existing defenses cannot stop adaptive adversaries and demonstrate that defenders must develop offensive security intelligence. We propose three actions for building frontier offensive AI capabilities responsibly. First, construct comprehensive benchmarks covering the full attack lifecycle. Second, advance from workflow-based to trained agents for discovering in-wild vulnerabilities at scale. Third, implement governance restricting offensive agents to audited cyber ranges, staging release by capability tier, and distilling findings into safe defensive-only agents. We strongly recommend treating offensive AI capabilities as essential defensive infrastructure, as containing cybersecurity risks requires mastering them in controlled settings before adversaries do.
- Abstract(参考訳): サイバーセキュリティは10年以上にわたり、人間の労働力不足に頼って攻撃者を手動や汎用的な自動攻撃に制限してきた。
高度なエクスプロイトを構築するには、深い専門知識と手動の努力が必要だ。
AIエージェントは、数千のターゲットに対する脆弱性発見とエクスプロイトを自動化することで、このバランスを破る。
現在の開発者は、データフィルタリング、安全アライメント、出力ガードレールによる誤用を防止することに重点を置いている。
このような保護は、オープンウェイトモデルを制御したり、安全制御をバイパスしたり、攻撃能力を独立して開発する敵に対して失敗する。
AIエージェントによるサイバー攻撃は避けられないものであり、防御戦略の根本的な変更が必要であると我々は主張する。
本稿では,既存の防衛が適応的敵を阻止できない理由を明らかにし,攻撃的セキュリティインテリジェンスを開発する必要があることを実証する。
我々は、フロンティア攻撃型AI機能を構築するための3つのアクションを提案する。
まず、完全な攻撃ライフサイクルをカバーする包括的なベンチマークを構築する。
第二に、ワークフローベースからトレーニングされたエージェントに進化して、大規模にWildの脆弱性を発見する。
第3に、攻撃的エージェントを監査対象のサイバー範囲に制限するガバナンスの実施、能力レベルによるリリースのステージング、安全な防御専用エージェントへの発見の蒸留。
攻撃的なAI能力は、サイバーセキュリティのリスクを含むため、敵がやる前に制御された環境でそれらをマスターする必要があるため、重要な防御基盤として扱うことを強く推奨する。
関連論文リスト
- The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
保護されていないコンテキストサーフェスを利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
ElizaOSを使用することで、不正なインジェクションをプロンプトや履歴レコードに注入することで、不正なアセット転送やプロトコル違反が引き起こされることを示す。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z) - Towards Type Agnostic Cyber Defense Agents [0.0]
サイバー脅威は拡大を続けており、労働力不足とサイバーセキュリティのスキルギャップにつながっている。
多くのサイバーセキュリティ製品ベンダーやセキュリティ組織は、彼らの防衛を強化するために人工知能に目を向けてきた。
この研究は、サイバー防衛の自動化に対する一つのアプローチにおいて、攻撃者や防衛者を特徴づける方法について考察する。
論文 参考訳(メタデータ) (2024-12-02T14:32:18Z) - The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。
我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。
以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文 参考訳(メタデータ) (2024-10-20T14:07:24Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。