論文の概要: Extending the Formalism and Theoretical Foundations of Cryptography to AI
- arxiv url: http://arxiv.org/abs/2603.02590v1
- Date: Tue, 03 Mar 2026 04:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.635979
- Title: Extending the Formalism and Theoretical Foundations of Cryptography to AI
- Title(参考訳): 形式主義と暗号理論の基礎をAIに拡張する
- Authors: Federico Villa, F. Betül Durak, Tadayoshi Kohno, Tapdig Maharramli, Franziska Roesner,
- Abstract要約: 言語モデル(Large Language Models)の最近の進歩は、自律型LMベースのエージェントの開発を可能にしている。
セキュリティリスクを軽減するための新たな方向の1つは、アクセス制御とパーミッション機構を通じてエージェントの動作を制限することだ。
まず、言語モデルに合わせた攻撃分類を構築することで、景観を体系化する。
次に,AIOracleをアルゴリズムで定義し,セキュリティゲームフレームワークを導入することにより,エージェントアクセス制御の形式的処理を開発する。
- 参考スコア(独自算出の注目度): 18.724847875398435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in (Large) Language Models (LMs) has enabled the development of autonomous LM-based agents capable of executing complex tasks with minimal supervision. These agents have started to be integrated into systems with significant autonomy and authority. The security community has been studying their security. One emerging direction to mitigate security risks is to constrain agent behaviours via access control and permissioning mechanisms. Existing permissioning proposals, however, remain difficult to compare due to the absence of a shared formal foundation. This work provides such a foundation. We first systematize the landscape by constructing an attack taxonomy tailored to language models, the computational primitives of agentic systems. We then develop a formal treatment of agentic access control by defining an AIOracle algorithmically and introducing a security-game framework that captures completeness (in the absence of an adversary) and adversarial robustness. Our security game unifies confidentiality, integrity, and availability within a single model. Using this framework, we show that existing approaches to confidentiality of training data fundamentally conflict with completeness. Finally, we formalize a modular decomposition of helpfulness and harmlessness objectives and prove its soundness, in order to enable principled reasoning about the security of agentic system designs. Our studies suggests that if we were to design a secure system with measurable security, then we might want to use a modular approach to break the problem into sub-problems and let the composition on different modules complete the design. Our studies show that this natural approach with the relevant formalism is needed to prove security reductions.
- Abstract(参考訳): 近年の(大規模)言語モデル(LM)の進歩により、最小限の監督で複雑なタスクを実行できる自律的LMベースのエージェントの開発が可能になった。
これらのエージェントは、大きな自律性と権限を持つシステムに統合され始めています。
セキュリティコミュニティはセキュリティを研究しています。
セキュリティリスクを軽減するための新たな方向の1つは、アクセス制御とパーミッション機構を通じてエージェントの動作を制限することだ。
しかし、既存の許可提案は、共有された公式な基礎が欠如しているため、比較が難しいままである。
この作品はそのような基盤を提供する。
まず,エージェントシステムの計算的プリミティブである言語モデルに合わせた攻撃分類を構築することにより,ランドスケープを体系化する。
次に、AIOracleアルゴリズムをアルゴリズムで定義し、(敵のいない状態で)完全性と敵の堅牢性を捉えるセキュリティゲームフレームワークを導入することにより、エージェントアクセス制御の正式な処理を開発する。
私たちのセキュリティゲームは、単一のモデル内での機密性、完全性、可用性を統一します。
このフレームワークを用いて、トレーニングデータの機密性に対する既存のアプローチが、完全性と根本的に矛盾していることを示す。
最後に、エージェントシステム設計の安全性に関する原則的推論を可能にするために、有用性と無害性の目的のモジュラ分解を形式化し、その健全性を証明する。
我々の研究は、もし私たちが測定可能なセキュリティを持つセキュアなシステムを設計する場合、問題をサブプロブレムに分割し、異なるモジュールのコンポジションで設計を完了させたいと示唆している。
我々の研究は、セキュリティの低下を証明するためには、関連する形式主義によるこの自然なアプローチが必要であることを示している。
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies [57.387081435669835]
大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。
我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
論文 参考訳(メタデータ) (2026-02-10T15:18:19Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - SoK: Trust-Authorization Mismatch in LLM Agent Interactions [16.633676842555044]
大規模言語モデル(LLM)は、外の世界と対話できる自律エージェントへと急速に進化している。
本稿ではエージェント・インタラクション・セキュリティのための統一型フォーマルレンズを提供する。
本稿では,信頼と権限のギャップに着目した新たなリスク分析モデルを提案する。
論文 参考訳(メタデータ) (2025-12-07T16:41:02Z) - Systems Security Foundations for Agentic Computing [21.600611396864114]
本稿では,AIモデルではなく,システム全体のエンドツーエンドのセキュリティ特性について検討する。
主要なゴールは、AIエージェントの文脈で従来のセキュリティ原則を適用する際に、研究上の課題がどこから生じるかを調べることである。
論文 参考訳(メタデータ) (2025-12-01T05:28:59Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Zero-Trust Foundation Models: A New Paradigm for Secure and Collaborative Artificial Intelligence for Internet of Things [61.43014629640404]
Zero-Trust Foundation Models (ZTFM)は、ゼロトラストセキュリティの原則をIoT(Internet of Things)システムの基盤モデル(FM)のライフサイクルに組み込む。
ZTFMは、分散、異質、潜在的に敵対的なIoT環境にわたって、セキュアでプライバシ保護のAIを可能にする。
論文 参考訳(メタデータ) (2025-05-26T06:44:31Z) - A Novel Zero-Trust Identity Framework for Agentic AI: Decentralized Authentication and Fine-Grained Access Control [7.228060525494563]
本稿では,Agentic AI IAMフレームワークの提案について述べる。
リッチで検証可能なエージェント識別子(ID)に基づく包括的フレームワークを提案する。
また、Zero-Knowledge Proofs(ZKPs)によって、プライバシ保護属性の開示と検証可能なポリシーコンプライアンスを実現する方法について検討する。
論文 参考訳(メタデータ) (2025-05-25T20:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。