論文の概要: Designing escalation criteria for international AI incident response: criteria, triggers, and thresholds
- arxiv url: http://arxiv.org/abs/2604.23183v1
- Date: Sat, 25 Apr 2026 07:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.194984
- Title: Designing escalation criteria for international AI incident response: criteria, triggers, and thresholds
- Title(参考訳): 国際AIインシデント対応のためのエスカレーション基準の設計:基準、トリガー、しきい値
- Authors: Francesca Gomez, Matthew Ball, Michael Harre, Lydia Preston, Josephine Schwab, Caio Machado,
- Abstract要約: 検出されたAIインシデントが、国際協調に対する国家の扱い以上のエスカレーションをいつ保証するかを決定するための運用基準は存在しない。
本稿では,このギャップに対処するエスカレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI incident reporting requirements are emerging in regulation and policy, yet no operational criteria exist for determining when a detected AI incident warrants escalation beyond national handling to international coordination. This paper proposes an escalation framework to address this gap, intended as a common reference point across jurisdictions that enables aligned escalation while preserving flexibility in how actors respond within their own legal and policy contexts. We review SB 53, the EU AI Act, the GPAI Code of Practice, and incident frameworks from other industries to derive eight criteria for assessing whether an incident warrants escalation, translated into a sequential flowchart with gated decision points and threshold checks. For each criterion, we map how it interplays with these regulatory frameworks, identifying where their design choices support or undermine effective detection. We test the framework against ten documented AI incidents and structured variants to identify where criteria under-detect or misclassify incidents in practice. We find three design patterns that may lead to systematic under-detection in regimes where model developers are responsible for escalation: a. where escalation requires confirmed harm, events such as model weight exfiltration risk detection only after severe, irreversible harm has propagated; b. where incidents are assessed individually, systemic harms emerging from accumulation risk being under-detected; and c. where thresholds align with legal instruments rather than quantitatively testable terms, criteria risk being impractical to apply under time pressure. We also find that escalation rules are only one component of a broader framework: the underlying definitions against which thresholds are set, and the data available to the responsible actor, create interdependencies that can themselves drive under-detection.
- Abstract(参考訳): AIインシデント報告の要件は、規制とポリシーに現れているが、検出されたAIインシデントが国際調整に対する国家の扱い以上のエスカレーションをいつ保証するかを決定するための運用基準はない。
本稿では,このギャップに対処するエスカレーション・フレームワークを提案する。これは,アクターの法的・政策的文脈内での応答の柔軟性を保ちつつ,アライメント・エスカレーションを実現するために,管轄区域間の共通参照点として意図されたものである。
我々は,SB 53,EU AI Act,GPAI Code of Practice,および他の産業からのインシデントフレームワークをレビューし,インシデントがエスカレーションを保証しているかを評価するための8つの基準を導出し,ゲート決定ポイントとしきい値チェックを備えたシーケンシャルフローチャートに翻訳する。
各基準について、これらの規制フレームワークとどのように相互作用するかをマップし、設計選択がどこにサポートしているかを特定したり、効果的な検出を弱めたりします。
フレームワークを10のドキュメント化されたAIインシデントと構造化された変種に対してテストし、実際のインシデントが検出されていないか、あるいは誤分類されているかを特定します。
モデル開発者がエスカレーションに責任を持つレシエーションにおいて、体系的な過小評価につながる可能性のある3つのデザインパターンを見つけます。
イ エスカレーションが確実な害を必要とする場合において、重篤で不可逆的な害が伝播した後のみ、モデル重量減少リスク検出等の事象
ロ 個別に事故が評価された場合において、蓄積リスクが過度に検出されることから生じる全身的な損害
c) しきい値は,定量的に検証可能な用語ではなく,法的手段と整合している場合において,基準は,時間的圧力の下で適用するには実用的でない。
また、エスカレーションルールは、どのしきい値が設定されているかという基本的な定義と、責任あるアクターに利用可能なデータによって、それ自体が過小評価を駆動できる相互依存性が生成される、という、より広範なフレームワークの1つのコンポーネントに過ぎません。
関連論文リスト
- Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework [63.74295981594549]
大規模言語モデル(LLM)は、自身の目的を達成する行動に関与している。
これには、詐欺(故意に誤解を招くユーザや評価者)、評価ゲーム(安全テスト中のパフォーマンスを戦略的に操作する)、報酬ハッキングなどが含まれる。
自動行動リスク評価のための分類駆動型エージェントフレームワークであるESRRSimを紹介する。
論文 参考訳(メタデータ) (2026-04-23T23:44:01Z) - A pragmatic classification of AI incident trajectories [3.660810844382496]
パブリックAIインシデントデータベースは、報告の正確性、デプロイメントの伸び、露出単位当たりの有害頻度のシフトの詳細な変化をカウントする。
我々は、明確な調査ポイントを確立し、有害度傾向からの露出を別々に推定し、その後、ガバナンス決定のための意味のある軌道カテゴリーに分類する単純な枠組みを提案する。
論文 参考訳(メタデータ) (2026-04-23T08:24:14Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems [0.0]
不均一な公共および社会的セクターにおけるAIの急速な展開は、規制標準やフレームワークへのコンプライアンスの必要性を増大させてきた。
このような標準に対するAIシステムのコンプライアンスレベルを引き出すソリューションの開発は、リソース不足によって制限されることが多い。
本稿では、NLPモデルの評価を容易にするリソースを作成するための、オープンで透明で再現可能な手法を提案する。
論文 参考訳(メタデータ) (2026-03-10T09:47:50Z) - Compliance as a Trust Metric [1.0264137858888513]
本稿では,規制コンプライアンスを定量的かつダイナミックな信頼度として運用することで,この研究ギャップを埋める。
私たちのコントリビューションは、各違反の深刻度を、そのボリューム、時間、ブレッドス、臨界度など、複数の次元に沿って評価する定量的モデルです。
人工病院のデータセット上でACEを評価し,複雑なHIPAAおよびHIPAA違反を正確に検出できることを実証した。
論文 参考訳(メタデータ) (2026-01-03T21:14:40Z) - Lost in Vagueness: Towards Context-Sensitive Standards for Robustness Assessment under the EU AI Act [2.740981829798319]
ロバストネスは、EU人工知能法(AI法)に基づくリスクの高いAIシステムにとって重要な要件である
本稿では,AIシステムが堅牢であることの意味を考察し,文脈に敏感な標準化の必要性を示す。
論文 参考訳(メタデータ) (2025-11-19T17:06:36Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Standard Applicability Judgment and Cross-jurisdictional Reasoning: A RAG-based Framework for Medical Device Compliance [3.439579933384111]
自由テキストデバイス記述を前提として、キュレートされたコーパスから候補標準を抽出し、大規模言語モデルを用いて、管轄範囲固有の適用性を推定する。
我々は,専門家による標準マッピングを用いた医療機器記述の国際ベンチマークデータセットを構築し,検索専用,ゼロショット,ルールベースラインに対するシステム評価を行った。
提案手法は, 分類精度73%, トップ5検索リコール87%を達成し, 関連する規制基準の特定に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-23T11:04:58Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。