論文の概要: Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare
- arxiv url: http://arxiv.org/abs/2603.17419v1
- Date: Wed, 18 Mar 2026 06:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.554018
- Title: Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare
- Title(参考訳): エージェントの活用: 医療における自律AIのためのゼロトラストセキュリティアーキテクチャ
- Authors: Saikat Maiti,
- Abstract要約: 本稿では,医療技術企業において,9つの自律型AIエージェントを実運用環境に配置するセキュリティアーキテクチャを提案する。
我々は、医療におけるエージェントAIの6領域脅威モデルを構築し、クレデンシャルエクスポージャー、実行能力の乱用、ネットワークのエクスプロイト、即時完全性障害、データベースアクセスリスク、およびフリート構成ドリフトをカバーする。
すべての構成、監査ツール、即時整合性フレームワークがオープンソースとしてリリースされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous AI agents powered by large language models are being deployed in production with capabilities including shell execution, file system access, database queries, and multi-party communication. Recent red teaming research demonstrates that these agents exhibit critical vulnerabilities in realistic settings: unauthorized compliance with non-owner instructions, sensitive information disclosure, identity spoofing, cross-agent propagation of unsafe practices, and indirect prompt injection through external resources [7]. In healthcare environments processing Protected Health Information, every such vulnerability becomes a potential HIPAA violation. This paper presents a security architecture deployed for nine autonomous AI agents in production at a healthcare technology company. We develop a six-domain threat model for agentic AI in healthcare covering credential exposure, execution capability abuse, network egress exfiltration, prompt integrity failures, database access risks, and fleet configuration drift. We implement four-layer defense in depth: (1) kernel level workload isolation using gVisor on Kubernetes, (2) credential proxy sidecars preventing agent containers from accessing raw secrets, (3) network egress policies restricting each agent to allowlisted destinations, and (4) a prompt integrity framework with structured metadata envelopes and untrusted content labeling. We report results from 90 days of deployment including four HIGH severity findings discovered and remediated by an automated security audit agent, progressive fleet hardening across three VM image generations, and defense coverage mapped to all eleven attack patterns from recent literature. All configurations, audit tooling, and the prompt integrity framework are released as open source.
- Abstract(参考訳): 大規模な言語モデルを活用した自律型AIエージェントは、シェル実行、ファイルシステムアクセス、データベースクエリ、マルチパーティ通信などの機能を備えた本番環境にデプロイされている。
最近のレッドチーム研究は、これらのエージェントが現実的な環境で重大な脆弱性を示すことを示している。非所有者の指示に対する無許可のコンプライアンス、機密情報開示、アイデンティティの偽造、安全でないプラクティスのクロスエージェント伝播、外部リソースによる間接的なインジェクション(7)。
医療環境における保護された健康情報処理では、このような脆弱性はすべてHIPAA違反の可能性がある。
本稿では,医療技術企業において,9つの自律型AIエージェントを実運用環境に配置するセキュリティアーキテクチャを提案する。
医療におけるエージェントAIのための6ドメインの脅威モデルを構築し、クレデンシャルエクスポージャー、実行能力の乱用、ネットワークのエクスプロイト、即時完全性障害、データベースアクセスリスク、およびフリート構成ドリフトをカバーする。
1) Kubernetes上のgVisorを使用したカーネルレベルのワークロード分離、(2)エージェントコンテナが生のシークレットにアクセスするのを防ぐクレデンシャルプロキシサイドカー、(3)各エージェントを許容する宛先に制限するネットワーク外部ポリシー、(4)構造化メタデータエンベロープと信頼できないコンテンツラベリングを備えた即時完全性フレームワーク。
本報告では, 自動セキュリティ監査エージェントによって発見され, 再現された4つの高重度発見, 3つのVMイメージ世代にわたるプログレッシブ・フリート・ハードニング, および最近の文献から得られた11の攻撃パターンすべてにマッピングされた防御カバレッジを含む90日間の展開結果について報告する。
すべての構成、監査ツール、即時整合性フレームワークがオープンソースとしてリリースされている。
関連論文リスト
- Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Authenticated Workflows: A Systems Approach to Protecting Agentic AI [0.0]
企業エージェントAIのための,最初の完全信頼層である認証を導入します。
我々は、すべての境界交差において、意図(組織方針を満たす操作)と整合性(操作は暗号的に真である)を強制する。
これにより、決定論的セキュリティ操作が提供され、有効な暗号証明が実行されるか、拒否される。
論文 参考訳(メタデータ) (2026-02-11T03:04:50Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
保護されていないコンテキストサーフェスを利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
ElizaOSを使用することで、不正なインジェクションをプロンプトや履歴レコードに注入することで、不正なアセット転送やプロトコル違反が引き起こされることを示す。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。