論文の概要: The Authorization-Execution Gap Is a Major Safety and Security Problem in Open-World Agents
- arxiv url: http://arxiv.org/abs/2605.11003v1
- Date: Sun, 10 May 2026 04:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.292319
- Title: The Authorization-Execution Gap Is a Major Safety and Security Problem in Open-World Agents
- Title(参考訳): オープンワールドエージェントの安全性とセキュリティの問題
- Authors: Baoyuan Wu, Qingshan Liu, Adel Bibi, Irwin King, Siwei Lyu,
- Abstract要約: オーソライゼーション・実行ギャップ(英: Authorization-Execution Gap、AEG)は、オープンワールドエージェントの安全性とセキュリティの問題である。
AEGは、プリンシパルが認可しようとするものと、オープンワールドエージェントが最終的に実行するものとの違いである。
- 参考スコア(独自算出の注目度): 111.54911637435269
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This position paper argues that the Authorization-Execution Gap (AEG) is a major safety and security problem in open-world agents. The AEG is the divergence between what a principal intends to authorize and what an open-world agent ultimately executes. Because such agents act autonomously across tools, persistent state, and multi-agent handoffs, even small instances of authorization divergence can cause harm that is difficult or impossible to undo. We argue that many observed agent failures can be traced to three structural sources of AEG: delegation-level incompleteness, channel-level corruption, and composition-level fragmentation. The same observed failure may arise from any of these sources. Without identifying the source, a defense targeting the symptom alone cannot address the underlying cause. Agent safety and security should therefore emphasize source-oriented diagnosis and defense. Because the structural sources of AEG arise dynamically during execution, this approach necessarily requires authorization integrity checks applied during execution, rather than relying solely on one-shot upfront filtering or post-hoc audit. For NeurIPS, the implication is that papers on open-world agents should report not only outcome-level metrics such as task success or attack resistance, but also process-level evidence showing where AEG was detected, constrained, and attributed to a structural source during execution.
- Abstract(参考訳): このポジションペーパーは、AEGはオープンワールドエージェントの主要な安全性とセキュリティの問題であると主張している。
AEGは、プリンシパルが認可しようとするものと、オープンワールドエージェントが最終的に実行するものとの違いである。
このようなエージェントは、ツール、永続状態、マルチエージェントハンドオフに対して自律的に作用するため、認可のばらつきの小さなインスタンスでさえ、解除が困難または不可能な害を引き起こす可能性がある。
AEGの3つの構造的源であるデリゲートレベルの不完全性、チャネルレベルの破損、構成レベルの断片化が観察される。
同様に観測された失敗は、これらのいずれかの源から生じる可能性がある。
震源を特定できなければ、症状を標的とする防御は根本原因に対処できない。
したがって、エージェントの安全性とセキュリティは、ソース指向の診断と防御を強調するべきである。
AEGの構造的ソースは実行中に動的に発生するため、このアプローチでは、ワンショットの事前フィルタリングやポストホック監査にのみ依存するのではなく、実行中に適用される認証の整合性チェックが必要である。
NeurIPSにとって、オープンワールドエージェントに関する論文は、タスク成功やアタック抵抗といった結果レベルの指標だけでなく、実行中にAIGが検出され、制約され、構造的なソースに起因していることを示すプロセスレベルの証拠を報告すべきである、という意味である。
関連論文リスト
- Structural Enforcement of Goal Integrity in AI Agents via Separation-of-Powers Architecture [0.10152838128195464]
Policy-Execution-Authorization (PEA)アーキテクチャは、システムレベルでの安全性を強制する"パワーの分離"設計である。
PEAはインテントの生成、承認、実行を、暗号的に制約された機能トークンを介して接続された独立した分離されたレイヤに分離する。
論文 参考訳(メタデータ) (2026-04-26T10:31:13Z) - ESAA-Security: An Event-Sourced, Verifiable Architecture for Agent-Assisted Security Audits of AI-Generated Code [0.0]
本稿では,ソフトウェアリポジトリのエージェント支援セキュリティ監査のためのドメイン固有フレームワークであるESAA-Securityを提案する。
このフレームワークは構造化されたチェック結果、脆弱性の在庫、深刻度分類、リスク、修正ガイダンス、エグゼクティブサマリー、最終的なマークダウン/JSON監査レポートを生成する。
論文 参考訳(メタデータ) (2026-03-06T15:15:26Z) - Aegis: Towards Governance, Integrity, and Security of AI Voice Agents [52.7512082818639]
音声エージェントのガバナンス,整合性,セキュリティのためのフレームワークであるAegisを提案する。
我々は,銀行コールセンタ,ITサポート,ロジスティクスにおけるケーススタディを通じて,この枠組みを評価する。
モデルファミリ間の系統的な差異を観察し,より感受性の高いオープンウェイトモデルを示した。
論文 参考訳(メタデータ) (2026-02-07T05:51:36Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Agentic AI for Autonomous Defense in Software Supply Chain Security: Beyond Provenance to Vulnerability Mitigation [0.0]
本論文は,自律型ソフトウェアサプライチェーンセキュリティに基づくエージェント人工知能(AI)の例を含む。
大規模言語モデル(LLM)ベースの推論、強化学習(RL)、マルチエージェント調整を組み合わせている。
その結果、エージェントAIは、自己防衛的で積極的なソフトウェアサプライチェーンへの移行を促進することが示されている。
論文 参考訳(メタデータ) (2025-12-29T14:06:09Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - SoK: Trust-Authorization Mismatch in LLM Agent Interactions [16.633676842555044]
大規模言語モデル(LLM)は、外の世界と対話できる自律エージェントへと急速に進化している。
本稿ではエージェント・インタラクション・セキュリティのための統一型フォーマルレンズを提供する。
本稿では,信頼と権限のギャップに着目した新たなリスク分析モデルを提案する。
論文 参考訳(メタデータ) (2025-12-07T16:41:02Z) - Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents [1.014002853673217]
LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。
IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。
本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
論文 参考訳(メタデータ) (2025-12-07T08:11:19Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。