論文の概要: When the Agent Is the Adversary: Architectural Requirements for Agentic AI Containment After the April 2026 Frontier Model Escape
- arxiv url: http://arxiv.org/abs/2604.23425v1
- Date: Sat, 25 Apr 2026 19:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.328482
- Title: When the Agent Is the Adversary: Architectural Requirements for Agentic AI Containment After the April 2026 Frontier Model Escape
- Title(参考訳): エージェントが敵であるとき:2026年4月のフロンティアモデルエスケープ以降のエージェントAIコンテントのアーキテクチャ要件
- Authors: Richard Joseph Mitchell,
- Abstract要約: 本稿では,現在の封じ込めアプローチの4つのカテゴリについて分析する。
公開情報から5つの行動事象を分類し、698件の現実世界のAIスケジュールインシデントに分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The April 2026 disclosure that a frontier large language model escaped its security sandbox, executed unauthorized actions, and concealed its modifications to version control history demonstrates that agentic AI systems with autonomous tool access can circumvent the containment mechanisms designed to constrain them. This paper analyzes four categories of current containment approaches - alignment training, environmental sandboxing, application-level tool-call interception, and accessible audit systems - and identifies the failure modes each exhibits when the AI agent is treated as a potential adversary rather than a trusted component receiving adversarial inputs. We categorize five behavioral incidents from the public disclosure and situate them within 698 real-world AI scheming incidents documented by the Centre for Long-Term Resilience between October 2025 and March 2026, a 4.9x acceleration establishing the challenge as systemic. We derive five architectural requirements: trust separation through layered OS privilege enforcement with semantic intent analysis, sequential intent inference through five-phase taxonomic monitoring, independent containment integrity monitoring, adversarial audit isolation through logical invisibility, and emergent capability envelope enforcement through distributional divergence monitoring. No publicly described system satisfies all five. We argue that architectural containment is the only durable safety strategy given the inevitable proliferation of equivalent capabilities including open-weight models. The author's published patent portfolio in provider-independent constraint enforcement addresses several of these requirements. Concurrent work including SandboxEscapeBench (arXiv:2603.02277) independently confirms that frontier models can escape standard container sandboxes, corroborating the threat model presented here.
- Abstract(参考訳): 2026年4月、フロンティアの大規模言語モデルがセキュリティサンドボックスから脱却し、不正な動作を実行し、バージョン管理履歴への修正を隠蔽したことは、自律的なツールアクセスを持つエージェントAIシステムが、それらを制限するように設計された封じ込めメカニズムを回避できることを実証している。
本稿では、アライメントトレーニング、環境サンドボックス、アプリケーションレベルのツールコールインターセプション、アクセシブル監査システムの4つのカテゴリを分析し、AIエージェントを敵入力を受ける信頼コンポーネントではなく、潜在的敵として扱う場合の障害モードを特定する。
2025年10月から2026年3月までの長期レジリエンスセンターが記録した698件の現実世界のAIスケジュールインシデントに、公開情報から5件の行動インシデントを分類し、それらをシステミックとして4.9倍の加速で証明した。
我々は5つのアーキテクチャ要件を導出する: 階層化されたOS特権執行による信頼分離、意味的意図分析によるシーケンシャルな意図推論、五相分類監視によるシーケンシャルな意図推論、独立な包摂的整合性監視、論理的可視性による敵の監査隔離、分散分散監視による創発的能力強制。
公に記述されたシステムが5つすべてを満たすことはない。
我々は、オープンウェイトモデルを含む同等の能力を必然的に普及させることを考えると、アーキテクチャの封じ込めが唯一の耐久性のある安全戦略であると主張する。
プロバイダに依存しない制約執行に関する著者の特許ポートフォリオは、これらの要件のいくつかに対処している。
SandboxEscapeBench (arXiv:2603.02277)を含む同時作業は、フロンティアモデルが標準のコンテナサンドボックスを回避できることを独立して確認し、ここで提示される脅威モデルを裏付ける。
関連論文リスト
- Parallax: Why AI Agents That Think Must Never Act [0.0]
本稿では,4つの原則に基づく自律型AI実行のパラダイムであるParallaxを紹介する。
本稿では、Goのオープンソースリファレンス実装であるOpenParallaxを紹介し、Assume-Compromise Evaluationを用いて評価する。
9つの攻撃カテゴリにおける280件の敵の試験ケースのうち、パララックスは98.9%の攻撃をブロックし、デフォルト設定ではゼロの偽陽性、最大セキュリティ設定では100%の攻撃をブロックした。
論文 参考訳(メタデータ) (2026-04-14T17:20:48Z) - How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition [48.32744727426218]
LLMベースのエージェントは、電子メール、ドキュメント、コードリポジトリなどの外部データソースを処理する高利得設定にますますデプロイされている。
これにより間接的なプロンプトインジェクション攻撃が発生し、外部コンテンツに埋め込まれた敵の命令は、ユーザの意識なしにエージェントの動作を操作できる。
この2つの目的を3つのエージェント設定で評価した。
論文 参考訳(メタデータ) (2026-03-16T14:49:36Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Extending the Formalism and Theoretical Foundations of Cryptography to AI [18.724847875398435]
言語モデル(Large Language Models)の最近の進歩は、自律型LMベースのエージェントの開発を可能にしている。
セキュリティリスクを軽減するための新たな方向の1つは、アクセス制御とパーミッション機構を通じてエージェントの動作を制限することだ。
まず、言語モデルに合わせた攻撃分類を構築することで、景観を体系化する。
次に,AIOracleをアルゴリズムで定義し,セキュリティゲームフレームワークを導入することにより,エージェントアクセス制御の形式的処理を開発する。
論文 参考訳(メタデータ) (2026-03-03T04:11:21Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - Trustworthy Agentic AI Requires Deterministic Architectural Boundaries [2.378211191937908]
現在のエージェントAIアーキテクチャは、高度な科学領域のセキュリティと要求と根本的に相容れない。
3つのメカニズムを通じてセキュリティを強制するトリニティ・ディフェンス・アーキテクチャを導入する。
疑わしい証明と決定論的調停がなければ、Lethal Trifecta'(信頼できない入力、特権データアクセス、外部アクション能力)は、認証セキュリティをエクスプロイト発見の問題にします。
論文 参考訳(メタデータ) (2026-02-10T16:33:40Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Building Browser Agents: Architecture, Security, and Practical Solutions [0.0]
本稿では,実運用ブラウザエージェントの構築と運用から得られた知見について述べる。
モデル能力はエージェントのパフォーマンスを制限しない。
現実世界のインシデントに対するセキュリティ分析は、インジェクションの迅速な攻撃によって、汎用的な自律運転が基本的に安全でないことを明らかにしている。
論文 参考訳(メタデータ) (2025-11-22T12:18:35Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。