論文の概要: Quantifying Confidence in Assurance 2.0 Arguments
- arxiv url: http://arxiv.org/abs/2604.00034v1
- Date: Sat, 21 Mar 2026 01:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.208815
- Title: Quantifying Confidence in Assurance 2.0 Arguments
- Title(参考訳): 保証2.0条項における信頼性の定量化
- Authors: Robin Bloomfield, John Rushby,
- Abstract要約: 本稿では,単純で体系的かつ健全な保証事例論における確率的信頼度を評価するための新しい手法を提案する。
これは、クレームが構造化された議論で分解される方法を利用しており、サブステート間の(独立性の)差と多様性の度合いに応じて異なるアプローチを提供する。
本手法は,Graydon と Holloway が他の信頼へのアプローチとして示している反例の影響を受けないことを示すとともに,Assurance 2.0 の議論を評価するための追加ツールとして推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Confidence is central to safety and assurance cases: how much confidence a decision requires and how much the argument actually provides are both important questions. We present a new method for assessing probabilistic confidence in assurance case arguments that is simple, systematic and sound. It exploits the ways claims are decomposed in a structured argument and provides different approaches according to the different degrees of (in)dependence and diversity among subclaims and the way they eliminate concerns that undermine confidence in their parent claims. The method uses only elementary probabilistic constructions that are well-known in other contexts (e.g., Frechet bounds) but we interpret and apply them in a manner that is specifically focused on assurance arguments and requires no background in probabilistic analysis. We show that the method is not susceptible to the counterexamples that Graydon and Holloway exhibit for other approaches to confidence and we recommend it as an additional tool in evaluation of Assurance 2.0 arguments. The primary evaluation criteria for Assurance 2.0 remain logical indefeasibility and dialectical examination, but probabilistic assessment can be useful in evaluating cost/confidence tradeoffs for different risk levels, and the overall balance of confidence across a structured argument.
- Abstract(参考訳): 信頼は安全と保証のケースの中心であり、決定にどの程度の信頼が必要か、議論が実際にどれだけ提供するかはどちらも重要な問題である。
本稿では,単純で体系的かつ健全な保証事例論における確率的信頼度を評価するための新しい手法を提案する。
これは、クレームが構造化された議論で分解される方法を利用しており、サブクレーム間の(独立性の)依存性と多様性の異なる度合いと、親クレームに対する信頼を損なう懸念を取り除く方法に応じて異なるアプローチを提供する。
この方法は、他の文脈でよく知られた基本確率構造(例えば、フレシェ境界)のみを用いるが、我々はそれらを解釈して適用し、保証引数に特に焦点をあて、確率解析の背景を必要としない方法で適用する。
本手法は,Graydon と Holloway が他の信頼へのアプローチとして示している反例の影響を受けないことを示すとともに,Assurance 2.0 の議論を評価するための追加ツールとして推奨する。
アシュアランス2.0の主要な評価基準は、論理的不確定性と弁証的検査のままであるが、確率的評価は、異なるリスクレベルのコスト/信頼トレードオフの評価や、構造化された議論における信頼の全体的なバランスを評価するのに有用である。
関連論文リスト
- Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。
我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - Confidence in Assurance 2.0 Cases [0.0]
私たちは、アシュアランス2.0と呼ばれる厳格なアプローチで、いかに自信を評価できるかを考えます。
私たちの目標は信頼を損なうことであり、それを4つの異なる視点からアプローチすることです。
論文 参考訳(メタデータ) (2024-09-16T19:00:21Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Assessing Confidence with Assurance 2.0 [0.0]
信頼は単一の属性や測定に還元できない、と我々は主張する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体論が一体化して肯定的な声明を下す程度を考察する。
否定的な視点は、典型的には敗者として表されるこの事件に対する疑念と挑戦を記録している。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
論文 参考訳(メタデータ) (2022-05-03T22:10:59Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。