論文の概要: Structural Enforcement of Goal Integrity in AI Agents via Separation-of-Powers Architecture
- arxiv url: http://arxiv.org/abs/2604.23646v1
- Date: Sun, 26 Apr 2026 10:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.478646
- Title: Structural Enforcement of Goal Integrity in AI Agents via Separation-of-Powers Architecture
- Title(参考訳): パワー・オブ・パワーズ・アーキテクチャによるAIエージェントのゴールインテリジェンスの構造強化
- Authors: Rong Xiang,
- Abstract要約: Policy-Execution-Authorization (PEA)アーキテクチャは、システムレベルでの安全性を強制する"パワーの分離"設計である。
PEAはインテントの生成、承認、実行を、暗号的に制約された機能トークンを介して接続された独立した分離されたレイヤに分離する。
- 参考スコア(独自算出の注目度): 0.10152838128195464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent evidence suggests that frontier AI systems can exhibit agentic misalignment, generating and executing harmful actions derived from internally constructed goals, even without explicit user requests. Existing mitigation methods, such as Reinforcement Learning from Human Feedback (RLHF) and constitutional prompting, operate primarily at the model level and provide only probabilistic safety guarantees. We propose the Policy-Execution-Authorization (PEA) architecture, a "separation-of-powers" design that enforces safety at the system level. PEA decouples intent generation, authorization, and execution into independent, isolated layers connected via cryptographically constrained capability tokens. We present five core contributions: (C1) an Intent Verification Layer (IVL) for ensuring capability-intent consistency; (C2) Intent Lineage Tracking (ILT), which binds all executable intents to the originating user request via cryptographic anchors; (C3) Goal Drift Detection, which rejects semantically divergent intents below a configurable threshold; (C4) an Output Semantic Gate (OSG) that detects implicit coercion using a structured $K \times I \times P$ threat calculus (Knowledge, Influence, Policy); and (C5) a formal verification framework proving that goal integrity is maintained even under adversarial model compromise. By shifting agent alignment from a behavioral property to a structurally enforced system constraint, PEA provides a robust foundation for the governance of autonomous agents.
- Abstract(参考訳): 最近の証拠は、フロンティアAIシステムは、明示的なユーザ要求がなくても、内部で構築された目標から引き起こされた有害なアクションを生成し、実行し、エージェント的不適応を示すことができることを示唆している。
RLHF(Reinforcement Learning from Human Feedback)やコンスティチューションプロンプトといった既存の緩和手法は、主にモデルレベルで運用され、確率論的安全保証のみを提供する。
本稿では、システムレベルでの安全性を強制する「パワー分離」設計である、ポリシ・実行・認証(PEA)アーキテクチャを提案する。
PEAはインテントの生成、承認、実行を、暗号的に制約された機能トークンを介して接続された独立した分離されたレイヤに分離する。
Intent Verification Layer (IVL), Intent Lineage Tracking (ILT), (C3) Intent Lineage Tracking (ILT), (C3) Goal Drift Detection (C3) Goal Drift Detection (C3) Goal Drift Detection (C3) Goal Semantic Gate (OSG), (C4) Output Semantic Gate (OSG) は構造化された$K \times I \times P$ threat calculus (Knowledge, Influence, Policy), (C5) によって暗黙の強制力を検出する。
エージェントアライメントを行動特性から構造的に強制されたシステム制約にシフトすることで、PEAは自律エージェントのガバナンスのための堅牢な基盤を提供する。
関連論文リスト
- OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains [2.124730017640531]
OpenKedgeは、突然変異を支配プロセスとして再定義するプロトコルである。
EEC(Intent-to-Execution Evidence Chain)は、意図、文脈、政策決定、実行境界、成果を統一された系統にリンクする。
マルチエージェントのコンフリクトシナリオとクラウドインフラストラクチャの変異に対してOpenKedgeを評価した。
論文 参考訳(メタデータ) (2026-04-07T22:51:08Z) - Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks [46.32011684548212]
AIエージェントは間接的なプロンプトインジェクションに対して脆弱であり、信頼できないデータに埋め込まれた悪意のある命令は危険なエージェントアクションを引き起こす可能性がある。
本稿では,間接的インジェクション攻撃に対するシステムレベルの防御の展望について論じる。
論文 参考訳(メタデータ) (2026-03-31T17:15:46Z) - Chain-of-Authorization: Internalizing Authorization into Large Language Models via Reasoning Trajectories [21.063230721511726]
Chain-of-Authorization (CoA)フレームワークは、認証ロジックを大規模言語モデルのコア機能に内部化する。
CoAはポリシー実行とタスク応答を統合し、承認を実体的応答の因果的前提とする。
論文 参考訳(メタデータ) (2026-03-24T07:13:01Z) - Autonomous Action Runtime Management(AARM):A System Specification for Securing AI-Driven Actions at Runtime [0.0]
本稿では,AI駆動型動作を実行時にセキュアにするためのオープン仕様であるAutonomous Action Management(AARM)を紹介する。
AARMは実行前にアクションをインターセプトし、セッションコンテキストを蓄積し、ポリシーと意図の整合性を評価し、承認決定を強制し、法医学的な再構築のための未確認のレシートを記録する。
AARMはモデルに依存しない、フレームワークに依存しない、ベンダーに依存しない、アクション実行を安定したセキュリティ境界として扱う。
論文 参考訳(メタデータ) (2026-02-10T05:57:30Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Binding Agent ID: Unleashing the Power of AI Agents with accountability and credibility [46.323590135279126]
BAID(Binding Agent ID)は、検証可能なユーザコードバインディングを確立するための総合的なアイデンティティ基盤である。
ブロックチェーンベースのID管理とzkVMベースの認証プロトコルの実現可能性を実証し、完全なプロトタイプシステムの実装と評価を行った。
論文 参考訳(メタデータ) (2025-12-19T13:01:54Z) - Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents [1.014002853673217]
LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。
IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。
本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
論文 参考訳(メタデータ) (2025-12-07T08:11:19Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。