論文の概要: Backchaining Loss of Control Mitigations from Mission-Specific Benchmarks in National Security
- arxiv url: http://arxiv.org/abs/2605.21095v1
- Date: Wed, 20 May 2026 12:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.6658
- Title: Backchaining Loss of Control Mitigations from Mission-Specific Benchmarks in National Security
- Title(参考訳): 国家安全保障におけるミッション特化ベンチマークによる制御緩和のバックチェーン化
- Authors: Matteo Pistillo, Samantha Faraone, Joshua Herman,
- Abstract要約: Affordances and permissions is promising safety levers for miting Loss of Control threats in high-stakes deployment contexts。
本稿では,AIシステムによる国家安全ベンチマークのエラーからLoC軽減をバックチェーンする,補完的かつ実証的な手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordances and permissions are promising and timely safety levers for mitigating Loss of Control (LoC) threats in high-stakes deployment contexts, such as national security. Deployers in defense and intelligence could rely on several approaches to identify which affordances and permissions should be prioritized, such as structured threat modelling, pre-deployment agentic evaluations, post-deployment continuous monitoring, and AI safety cases. This paper proposes a complementary and empirical methodology that leverages existing use-case-specific benchmarks: backchaining LoC mitigations from the errors an AI system makes on national security benchmarks. The approach proceeds in three steps and allows national security deployers to start building LoC mitigations today, from evidence they can generate themselves. First, deployers evaluate AI systems on mission-specific benchmarks approximating real use-cases. Second, deployers concentrate on the incorrect responses that the AI system provides to the benchmark questions, and backchain the affordances and permissions that would enable the AI system to cause downstream harm if it pursued the actions described in the incorrect answers. Third, deployers intervene selectively on those affordances and permissions, bottlenecking the paths to harm while preserving the AI system's ability to carry out the correct action. We illustrate this methodology through a demonstrative benchmark question on derivative security classification.
- Abstract(参考訳): 国家の安全など、高度に配備された状況下でのLoC(Los of Control)の脅威を軽減するため、予算と許可は有望かつタイムリーな安全レバーである。
防衛とインテリジェンスのデプロイは、構造化脅威モデリング、事前デプロイエージェント評価、デプロイ後の継続的監視、AI安全ケースなど、どの余裕と権限を優先するかを特定するためのいくつかのアプローチに依存する可能性がある。
本稿では,AIシステムが国家安全ベンチマークで行ったエラーから,既存のユースケース固有のベンチマークをバックチェーンする,補完的かつ実証的な手法を提案する。
このアプローチは3つのステップで進み、国家安全保障のデプロイ担当者は、自分たちで生成できる証拠から、今日からLoC対策を構築することができる。
まず、デプロイ者はミッション固有のベンチマークでAIシステムを評価し、実際のユースケースを近似する。
第二に、デプロイ者は、AIシステムがベンチマークの質問に対して与える誤った応答に集中し、不正な回答に記載されたアクションを追求すれば、AIシステムが下流に害をもたらす可能性のある余裕と許可をバックチェーンする。
第三に、デプロイはそれらの余裕と許可を選択的に介入し、AIシステムの正しいアクションを実行する能力を維持しながら、害を受けるための経路をボトルネックにします。
本稿では,この手法を,デリバティブセキュリティ分類に関する実証的ベンチマーク質問を通じて説明する。
関連論文リスト
- AgentReputation: A Decentralized Agentic AI Reputation Framework [3.6704226968275253]
我々はエージェントAIシステムのための分散3層評価フレームワークである textbfAgentReputation を提案する。
このフレームワークは、タスク実行、評価サービス、タンパー保護の永続化を分離し、それぞれの強みを活用し、独立した進化を可能にする。
定量化において、AgentReputationはリソース割り当て、アクセス制御、適応的な検証エスカレーションをサポートする決定対応のポリシーエンジンを提供する。
論文 参考訳(メタデータ) (2026-04-30T12:33:39Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks [46.32011684548212]
AIエージェントは間接的なプロンプトインジェクションに対して脆弱であり、信頼できないデータに埋め込まれた悪意のある命令は危険なエージェントアクションを引き起こす可能性がある。
本稿では,間接的インジェクション攻撃に対するシステムレベルの防御の展望について論じる。
論文 参考訳(メタデータ) (2026-03-31T17:15:46Z) - MAIF: Enforcing AI Trust and Provenance with an Artifact-Centric Agentic Paradigm [0.5495755145898128]
現在のAIシステムは、監査証跡、証明追跡、EU AI Actのような新たな規則で要求される説明可能性に欠ける不透明なデータ構造で運用されている。
動作は一時的なタスクではなく、永続的で検証可能なデータアーティファクトによって駆動される、アーティファクト中心のAIエージェントパラダイムを提案する。
プロダクション対応実装では、超高速ストリーミング(2,720.7MB/s)、最適化されたビデオ処理(1,342MB/s)、エンタープライズレベルのセキュリティが示されている。
論文 参考訳(メタデータ) (2025-11-19T04:10:32Z) - AI threats to national security can be countered through an incident regime [55.2480439325792]
我々は、AIシステムからの潜在的な国家安全保障脅威に対抗することを目的とした、法的に義務付けられたポストデプロイAIインシデントシステムを提案する。
提案したAIインシデント体制は,3段階に分けられる。第1フェーズは,‘AIインシデント’とみなすような,新たな運用方法を中心に展開される。
第2フェーズと第3フェーズでは、AIプロバイダが政府機関にインシデントを通知し、政府機関がAIプロバイダのセキュリティおよび安全手順の修正に関与するべきだ、と説明されている。
論文 参考訳(メタデータ) (2025-03-25T17:51:50Z) - AI Companies Should Report Pre- and Post-Mitigation Safety Evaluations [5.984437476321095]
フロンティアAI企業は、事前および後安全評価の両方を報告すべきである。
両段階におけるモデルの評価は、政策立案者に、配備、アクセス、安全基準を規制するための重要な証拠を提供する。
論文 参考訳(メタデータ) (2025-03-17T17:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。