論文の概要: Adapting Probabilistic Risk Assessment for AI
- arxiv url: http://arxiv.org/abs/2504.18536v1
- Date: Fri, 25 Apr 2025 17:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.86838
- Title: Adapting Probabilistic Risk Assessment for AI
- Title(参考訳): AIの確率的リスクアセスメントへの適応
- Authors: Anna Katariina Wisakanto, Joe Rogero, Avyay M. Casheekar, Richard Mallah,
- Abstract要約: 汎用人工知能(AI)システムは、緊急リスク管理の課題を示す。
現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に依存します。
本稿では,AIフレームワークの確率的リスクアセスメント(PRA)を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern general-purpose artificial intelligence (AI) systems present an urgent risk management challenge, as their rapidly evolving capabilities and potential for catastrophic harm outpace our ability to reliably assess their risks. Current methods often rely on selective testing and undocumented assumptions about risk priorities, frequently failing to make a serious attempt at assessing the set of pathways through which Al systems pose direct or indirect risks to society and the biosphere. This paper introduces the probabilistic risk assessment (PRA) for AI framework, adapting established PRA techniques from high-reliability industries (e.g., nuclear power, aerospace) for the new challenges of advanced AI. The framework guides assessors in identifying potential risks, estimating likelihood and severity, and explicitly documenting evidence, underlying assumptions, and analyses at appropriate granularities. The framework's implementation tool synthesizes the results into a risk report card with aggregated risk estimates from all assessed risks. This systematic approach integrates three advances: (1) Aspect-oriented hazard analysis provides systematic hazard coverage guided by a first-principles taxonomy of AI system aspects (e.g. capabilities, domain knowledge, affordances); (2) Risk pathway modeling analyzes causal chains from system aspects to societal impacts using bidirectional analysis and incorporating prospective techniques; and (3) Uncertainty management employs scenario decomposition, reference scales, and explicit tracing protocols to structure credible projections with novelty or limited data. Additionally, the framework harmonizes diverse assessment methods by integrating evidence into comparable, quantified absolute risk estimates for critical decisions. We have implemented this as a workbook tool for AI developers, evaluators, and regulators, available on the project website.
- Abstract(参考訳): 現代の汎用人工知能(AI)システムは、急速に進化する能力と破滅的な危害の可能性が、我々のリスクを確実に評価する能力を上回っているため、緊急のリスク管理課題を呈している。
現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に頼っており、Alシステムが社会や生物圏に直接的または間接的なリスクを課す経路のセットを真剣に評価する試みに失敗することが多い。
本稿では、高度AIの新たな課題に対して、高信頼性産業(原子力、航空宇宙など)から確立されたPRA技術を適用し、AIフレームワークの確率的リスクアセスメント(PRA)を導入する。
このフレームワークは、潜在的なリスクを特定し、可能性と深刻度を推定し、証拠、基礎となる仮定、そして適切な粒度の分析を明示的に文書化する。
フレームワークの実装ツールは、結果をリスクレポートカードに合成する。
この体系的アプローチは,(1)AIシステム側面の第一原理的分類(例えば能力,ドメイン知識,能力)によって導かれる系統的ハザードカバレッジを提供する。(2)リスクパス解析は,システム側面から社会的影響まで,双方向分析を用いて因果連鎖を解析し,予測的手法を取り入れ,(3)不確実性管理では,シナリオ分解,基準尺度,明示的トレースプロトコルを用いて,新規データや限定データを用いた信頼性予測を構築する。
さらに、このフレームワークは、証拠を定量的に定量化した絶対リスク推定に組み込むことで、様々な評価手法を調和させる。
私たちはこれを、AI開発者、評価者、規制当局のためのワークブックツールとして実装し、プロジェクトのウェブサイトで公開しています。
関連論文リスト
- Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Supervision policies can shape long-term risk management in general-purpose AI models [0.0]
本研究では,リスク,インシデント,あるいはハザード報告のエコシステムの多様な状況から抽出された特徴をパラメータ化したシミュレーションフレームワークを開発する。
リスクタイプを包括的に網羅した高優先度リスクのバランスをとる)非優先順位付け(優先、優先)、ランダム選択、優先度付け(優先)、多様性優先(優先)の4つの政策を評価する。
以上の結果から, 優先的かつ多様性優先的な政策は, 高影響リスク軽減に有効であるが, より広範なコミュニティが報告した制度的問題を無視している可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-10T17:52:34Z) - A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation [0.3413711585591077]
大規模言語モデル(LLM)や拡散モデルを含む生成AIシステムが急速に進歩するにつれ、その採用が増加し、新たな複雑なセキュリティリスクがもたらされた。
本稿では,これらの突発的なセキュリティリスクを分類・緩和するための新しい形式的枠組みを提案する。
我々は、潜時空間利用、マルチモーダル・クロスアタック・ベクター、フィードバックループによるモデル劣化など、未探索のリスクを特定した。
論文 参考訳(メタデータ) (2024-10-15T02:51:32Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z) - Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification [32.9142708692264]
本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。
まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。
第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
論文 参考訳(メタデータ) (2022-04-21T01:06:10Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。