論文の概要: MARIA: A Framework for Marginal Risk Assessment without Ground Truth in AI Systems
- arxiv url: http://arxiv.org/abs/2510.27163v1
- Date: Fri, 31 Oct 2025 04:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.974795
- Title: MARIA: A Framework for Marginal Risk Assessment without Ground Truth in AI Systems
- Title(参考訳): MARIA:AIシステムにおける地底真理のないリスクアセスメントのためのフレームワーク
- Authors: Jieshan Chen, Suyu Ma, Qinghua Lu, Sung Une Lee, Liming Zhu,
- Abstract要約: 既存のプロセスを置き換えるためにAIシステムをデプロイする前に、リスクを追加することなく改善を保証するために、既存のシステムと比較する必要がある。
従来の評価は両方のシステムに対して基礎的な真理に依存しているが、しばしば遅延または不可知の結果のために利用できない。
根拠的真理や絶対的リスクへの依存を避けるための限界リスク評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.620099531890716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Before deploying an AI system to replace an existing process, it must be compared with the incumbent to ensure improvement without added risk. Traditional evaluation relies on ground truth for both systems, but this is often unavailable due to delayed or unknowable outcomes, high costs, or incomplete data, especially for long-standing systems deemed safe by convention. The more practical solution is not to compute absolute risk but the difference between systems. We therefore propose a marginal risk assessment framework, that avoids dependence on ground truth or absolute risk. It emphasizes three kinds of relative evaluation methodology, including predictability, capability and interaction dominance. By shifting focus from absolute to relative evaluation, our approach equips software teams with actionable guidance: identifying where AI enhances outcomes, where it introduces new risks, and how to adopt such systems responsibly.
- Abstract(参考訳): 既存のプロセスを置き換えるためにAIシステムをデプロイする前に、リスクを追加することなく改善を保証するために、既存のシステムと比較する必要がある。
従来の評価は両方のシステムに対して基礎的な真理に依存しているが、これはしばしば遅延または不可知の結果、高いコスト、または不完全なデータのために利用できない。
より実用的な解決策は、絶対リスクではなく、システム間の差を計算することである。
そこで我々は, 根拠的真理や絶対的リスクへの依存を回避し, 限界リスク評価の枠組みを提案する。
予測可能性、能力、相互作用の優位性を含む3種類の相対評価手法を強調している。
絶対的な評価から相対的な評価へと焦点を移すことで、私たちのアプローチはソフトウェアチームに実行可能なガイダンスを与えます。
関連論文リスト
- RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Adapting Probabilistic Risk Assessment for AI [0.0]
汎用人工知能(AI)システムは、緊急リスク管理の課題を示す。
現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に依存します。
本稿では,AIフレームワークの確率的リスクアセスメント(PRA)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T17:59:14Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Trustworthiness in Stochastic Systems: Towards Opening the Black Box [1.7355698649527407]
AIシステムによる行動は、アライメントと潜在的な信頼を損なう恐れがある。
我々は、基礎性と信頼性の間の緊張と潜在的な対立に対して哲学的な視点を採っている。
我々は,AIシステムとユーザの両方に対して,アライメントをよりよく評価するための潜在値モデリングを提案する。
論文 参考訳(メタデータ) (2025-01-27T19:43:09Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。