論文の概要: Trustworthy Agentic AI Requires Deterministic Architectural Boundaries
- arxiv url: http://arxiv.org/abs/2602.09947v1
- Date: Tue, 10 Feb 2026 16:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.686245
- Title: Trustworthy Agentic AI Requires Deterministic Architectural Boundaries
- Title(参考訳): 信頼できるエージェントAIは決定論的アーキテクチャ境界を必要とする
- Authors: Manish Bhattarai, Minh Vu,
- Abstract要約: 現在のエージェントAIアーキテクチャは、高度な科学領域のセキュリティと要求と根本的に相容れない。
3つのメカニズムを通じてセキュリティを強制するトリニティ・ディフェンス・アーキテクチャを導入する。
疑わしい証明と決定論的調停がなければ、Lethal Trifecta'(信頼できない入力、特権データアクセス、外部アクション能力)は、認証セキュリティをエクスプロイト発見の問題にします。
- 参考スコア(独自算出の注目度): 2.378211191937908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current agentic AI architectures are fundamentally incompatible with the security and epistemological requirements of high-stakes scientific workflows. The problem is not inadequate alignment or insufficient guardrails, it is architectural: autoregressive language models process all tokens uniformly, making deterministic command--data separation unattainable through training alone. We argue that deterministic, architectural enforcement, not probabilistic learned behavior, is a necessary condition for trustworthy AI-assisted science. We introduce the Trinity Defense Architecture, which enforces security through three mechanisms: action governance via a finite action calculus with reference-monitor enforcement, information-flow control via mandatory access labels preventing cross-scope leakage, and privilege separation isolating perception from execution. We show that without unforgeable provenance and deterministic mediation, the ``Lethal Trifecta'' (untrusted inputs, privileged data access, external action capability) turns authorization security into an exploit-discovery problem: training-based defenses may reduce empirical attack rates but cannot provide deterministic guarantees. The ML community must recognize that alignment is insufficient for authorization security, and that architectural mediation is required before agentic AI can be safely deployed in consequential scientific domains.
- Abstract(参考訳): 現在のエージェントAIアーキテクチャは、高度な科学ワークフローのセキュリティと認識的要件と根本的に相容れない。
自動回帰言語モデルはすべてのトークンを均一に処理し、決定論的コマンド-データ分離をトレーニングだけでは達成できないものにします。
決定論的、建築的強制は確率論的学習行動ではなく、信頼できるAI支援科学に必要な条件である、と我々は主張する。
本稿では,トリニティ・ディフェンス・アーキテクチャ (Trinity Defense Architecture) について紹介する。3つのメカニズムは,参照監視を施した有限アクション計算によるアクションガバナンス,クロススコープリークを防止する必須アクセスラベルによる情報フロー制御,実行からの認識を分離する特権分離である。
我々は,<Lethal Trifecta''(信頼できない入力,特権データアクセス,外部アクション能力)は,不確実な証明や決定論的仲介がなければ,認証のセキュリティをエクスプロイト発見の問題に変える。
MLコミュニティは、アライメントが認証セキュリティに不十分であることと、エージェントAIが適切な科学領域に安全にデプロイされる前にアーキテクチャの仲介が必要であることを認識しなければならない。
関連論文リスト
- Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文 参考訳(メタデータ) (2026-02-06T23:20:26Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - MAIF: Enforcing AI Trust and Provenance with an Artifact-Centric Agentic Paradigm [0.5495755145898128]
現在のAIシステムは、監査証跡、証明追跡、EU AI Actのような新たな規則で要求される説明可能性に欠ける不透明なデータ構造で運用されている。
動作は一時的なタスクではなく、永続的で検証可能なデータアーティファクトによって駆動される、アーティファクト中心のAIエージェントパラダイムを提案する。
プロダクション対応実装では、超高速ストリーミング(2,720.7MB/s)、最適化されたビデオ処理(1,342MB/s)、エンタープライズレベルのセキュリティが示されている。
論文 参考訳(メタデータ) (2025-11-19T04:10:32Z) - Governable AI: Provable Safety Under Extreme Threat Models [31.36879992618843]
我々は、従来の内部制約から外部に強制された構造コンプライアンスに移行するGAI(Governable AI)フレームワークを提案する。
GAIフレームワークは、シンプルで信頼性が高く、完全に決定論的で、強力で、柔軟性があり、汎用的なルール執行モジュール(REM)、ガバナンスルール、AIによる妥協やサブバージョンに対するエンドツーエンドの保護を提供する、統制可能なセキュアなスーパープラットフォーム(GSSP)で構成されている。
論文 参考訳(メタデータ) (2025-08-28T04:22:59Z) - CIA+TA Risk Assessment for AI Reasoning Vulnerabilities [0.0]
本稿では,AI推論プロセスのシステム的保護である認知サイバーセキュリティの枠組みについて述べる。
まず、従来のサイバーセキュリティとAIの安全性を補完する規律として、認知サイバーセキュリティを確立します。
第2に、CIA+TAを導入し、従来の機密性、統合性、信頼による可用性を拡張します。
第3に,経験的導出係数を用いた定量的リスク評価手法を提案し,組織が認知的セキュリティリスクを計測できるようにする。
論文 参考訳(メタデータ) (2025-08-19T13:56:09Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。