論文の概要: Parallax: Why AI Agents That Think Must Never Act
- arxiv url: http://arxiv.org/abs/2604.12986v1
- Date: Tue, 14 Apr 2026 17:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.581685
- Title: Parallax: Why AI Agents That Think Must Never Act
- Title(参考訳): パララックス:AIエージェントが行動してはいけない理由
- Authors: Joel Fokou,
- Abstract要約: 本稿では,4つの原則に基づく自律型AI実行のパラダイムであるParallaxを紹介する。
本稿では、Goのオープンソースリファレンス実装であるOpenParallaxを紹介し、Assume-Compromise Evaluationを用いて評価する。
9つの攻撃カテゴリにおける280件の敵の試験ケースのうち、パララックスは98.9%の攻撃をブロックし、デフォルト設定ではゼロの偽陽性、最大セキュリティ設定では100%の攻撃をブロックした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous AI agents are rapidly transitioning from experimental tools to operational infrastructure, with projections that 80% of enterprise applications will embed AI copilots by the end of 2026. As agents gain the ability to execute real-world actions (reading files, running commands, making network requests, modifying databases), a fundamental security gap has emerged. The dominant approach to agent safety relies on prompt-level guardrails: natural language instructions that operate at the same abstraction level as the threats they attempt to mitigate. This paper argues that prompt-based safety is architecturally insufficient for agents with execution capability and introduces Parallax, a paradigm for safe autonomous AI execution grounded in four principles: Cognitive-Executive Separation, which structurally prevents the reasoning system from executing actions; Adversarial Validation with Graduated Determinism, which interposes an independent, multi-tiered validator between reasoning and execution; Information Flow Control, which propagates data sensitivity labels through agent workflows to detect context-dependent threats; and Reversible Execution, which captures pre-destructive state to enable rollback when validation fails. We present OpenParallax, an open-source reference implementation in Go, and evaluate it using Assume-Compromise Evaluation, a methodology that bypasses the reasoning system entirely to test the architectural boundary under full agent compromise. Across 280 adversarial test cases in nine attack categories, Parallax blocks 98.9% of attacks with zero false positives under its default configuration, and 100% of attacks under its maximum-security configuration. When the reasoning system is compromised, prompt-level guardrails provide zero protection because they exist only within the compromised system; Parallax's architectural boundary holds regardless.
- Abstract(参考訳): 自律型AIエージェントは、試験ツールから運用インフラストラクチャへと急速に移行しており、エンタープライズアプリケーションの80%が2026年末までにAIコミッションを組み込むと予測されている。
エージェントが現実世界のアクション(ファイルの読み込み、コマンドの実行、ネットワーク要求の作成、データベースの変更)を実行する能力を得るにつれ、基本的なセキュリティギャップが出現した。
エージェントの安全性に対する支配的なアプローチは、プロンプトレベルのガードレールに依存している。
本稿では,アクシデントベースの安全は,実行能力を持つエージェントに対してアーキテクチャ的に不十分であること,そして,安全自律型AI実行のパラダイムであるパララックスを導入すること,4つの原則について論じる: 認知的実行的分離(Cognitive-Executive separation)は,推論システムによる行動実行を構造的に防止する,学習的決定主義(Adversarial Validation with Graduated Determinism)は,推論と実行の間に独立した多層バリデータを介し,エージェントワークフローを通じてデータ感度ラベルを伝播してコンテキスト依存的な脅威を検出する,可逆的実行(Reversible Execution)は,検証が失敗した場合のロールバックを可能にする。
本稿では,Goのオープンソースリファレンス実装であるOpenParallaxについて,完全なエージェント妥協の下でアーキテクチャ境界をテストするために,推論システムを完全にバイパスする手法であるAssume-Compromise Evaluationを用いて評価する。
9つの攻撃カテゴリにおける280件の敵の試験ケースのうち、パララックスは98.9%の攻撃をブロックし、デフォルト設定ではゼロの偽陽性、最大セキュリティ設定では100%の攻撃をブロックした。
推論システムが妥協された場合、プロンプトレベルのガードレールは、妥協されたシステム内にのみ存在するため、ゼロ保護を提供する。
関連論文リスト
- PlanGuard: Defending Agents against Indirect Prompt Injection via Planning-based Consistency Verification [1.7904458681854372]
PlanGuardは、コンテキスト分離の原則に基づいた、トレーニング不要の防御フレームワークである。
PlanGuardは攻撃を効果的に中和し、アタック成功率(ASR)を72.8%から0%に下げる。
論文 参考訳(メタデータ) (2026-04-11T09:59:46Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - Authenticated Workflows: A Systems Approach to Protecting Agentic AI [0.0]
企業エージェントAIのための,最初の完全信頼層である認証を導入します。
我々は、すべての境界交差において、意図(組織方針を満たす操作)と整合性(操作は暗号的に真である)を強制する。
これにより、決定論的セキュリティ操作が提供され、有効な暗号証明が実行されるか、拒否される。
論文 参考訳(メタデータ) (2026-02-11T03:04:50Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Fault-Tolerant Sandboxing for AI Coding Agents: A Transactional Approach to Safe Autonomous Execution [1.3537117504260623]
本稿では,これらのリスクを軽減するために設計されたフォールトトレラントサンドボックスフレームワークを提案する。
我々は、アトミックトランザクションにおけるエージェントアクションのラップは、許容できるレイテンシで安全性を保証することができると仮定する。
実験により、高リスクコマンドに対する100%のインターセプション率と、ロールバック失敗状態における100%の成功率が示された。
論文 参考訳(メタデータ) (2025-12-14T19:03:59Z) - Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents [1.014002853673217]
LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。
IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。
本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
論文 参考訳(メタデータ) (2025-12-07T08:11:19Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。