論文の概要: Assessing Confidence with Assurance 2.0
- arxiv url: http://arxiv.org/abs/2205.04522v1
- Date: Tue, 3 May 2022 22:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 00:52:05.278155
- Title: Assessing Confidence with Assurance 2.0
- Title(参考訳): Assurance 2.0による信頼性の評価
- Authors: John Rushby and Robin Bloomfield
- Abstract要約: 信頼は単一の属性や測定に還元できない、と我々は主張する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体論が一体化して肯定的な声明を下す程度を考察する。
否定的な視点は、典型的には敗者として表されるこの事件に対する疑念と挑戦を記録している。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An assurance case is intended to provide justifiable confidence in the truth
of its top claim, which typically concerns safety or security. A natural
question is then "how much" confidence does the case provide? We argue that
confidence cannot be reduced to a single attribute or measurement. Instead, we
suggest it should be based on attributes that draw on three different
perspectives: positive, negative, and residual doubts. Positive Perspectives
consider the extent to which the evidence and overall argument of the case
combine to make a positive statement justifying belief in its claims. We set a
high bar for justification, requiring it to be indefeasible. The primary
positive measure for this is soundness, which interprets the argument as a
logical proof. Confidence in evidence can be expressed probabilistically and we
use confirmation measures to ensure that the "weight" of evidence crosses some
threshold. In addition, probabilities can be aggregated from evidence through
the steps of the argument using probability logics to yield what we call
probabilistic valuations for the claims. Negative Perspectives record doubts
and challenges to the case, typically expressed as defeaters, and their
exploration and resolution. Assurance developers must guard against
confirmation bias and should vigorously explore potential defeaters as they
develop the case, and should record them and their resolution to avoid rework
and to aid reviewers. Residual Doubts: the world is uncertain so not all
potential defeaters can be resolved. We explore risks and may deem them
acceptable or unavoidable. It is crucial however that these judgments are
conscious ones and that they are recorded in the assurance case. This report
examines the perspectives in detail and indicates how Clarissa, our prototype
toolset for Assurance 2.0, assists in their evaluation.
- Abstract(参考訳): アシュアランス・ケースは、安全やセキュリティに関する主要な主張の真相を正当化できる信頼を提供するためのものである。
自然な疑問は、このケースがどの程度の信頼を提供するのか、ということです。
信頼は単一の属性や測定に還元できない、と我々は主張する。
代わりに、それは3つの異なる視点、すなわち正、負、および残余の疑念に基づくべきだと提案する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体的な議論が組み合わさった範囲を、その主張に対する信念を正当化する肯定的な声明として考える。
私たちは正当化のために高い基準を設定しました。
これに対する第一の正の測度は音性であり、これは議論を論理的証明として解釈する。
証拠の信頼は確率論的に表すことができ、証拠の「重み」がしきい値を超えたことを保証するための確認措置を用いる。
さらに、確率論理を用いて議論のステップを通じて証拠から確率を集約して、我々がクレームの確率的評価と呼ぶものを得ることもできる。
否定的な視点は、典型的には敗者として表現される事件に対する疑念と挑戦とその探索と解決を記録している。
保証開発者は、確認バイアスを回避し、ケースを開発する際に、潜在的な敗者を探究し、再作業を避けてレビュアーを助けるために、それらとその解決を記録すべきである。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
リスクを探求し、受け入れがたい、あるいは避けられないと判断する。
しかし、これらの判断は意識的なものであり、保証ケースに記録されていることは重要である。
本報告では,アシュアランス2.0のプロトタイプツールセットであるClarissaがどのように評価を支援するか,その視点を詳細に検討する。
関連論文リスト
- U-Trustworthy Models.Reliability, Competence, and Confidence in
Decision-Making [0.21756081703275998]
信頼性の正確な数学的定義を$mathcalU$-trustworthinessと呼ぶ。
$mathcalU$-trustworthinessの文脈において、適切にランク付けされたモデルは本質的に$mathcalU$-trustworthyであることが証明される。
我々は、信頼度を優先する尺度として、AUCメートル法の採用を提唱する。
論文 参考訳(メタデータ) (2024-01-04T04:58:02Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Did You Mean...? Confidence-based Trade-offs in Semantic Parsing [52.28988386710333]
タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。
次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
論文 参考訳(メタデータ) (2023-03-29T17:07:26Z) - Confidence-Calibrated Face and Kinship Verification [8.570969129199467]
検証モデルにより、類似度スコアを任意の顔対に対する信頼スコアに変換することができる効果的な信頼度尺度を導入する。
また,実装が容易で,既存の検証モデルにも容易に適用可能な,信頼性校正アプローチであるAngular Scaling(ASC)を提案する。
我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度校正ソリューションを提示した。
論文 参考訳(メタデータ) (2022-10-25T10:43:46Z) - Uncertain Evidence in Probabilistic Models and Stochastic Simulators [80.40110074847527]
我々は、不確実性を伴う観測を伴う確率論的モデルにおいて、ベイズ的推論を行うという問題について考察する。
我々は、不確実な証拠をどう解釈するかを探求し、潜伏変数の推論に関連する適切な解釈の重要性を拡大する。
我々は、不確実な証拠を説明するための具体的なガイドラインを考案し、特に一貫性に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-10-21T20:32:59Z) - Demonstrating Software Reliability using Possibly Correlated Tests:
Insights from a Conservative Bayesian Approach [2.152298082788376]
我々は、実行が独立したことを「疑う」という非公式な概念を定式化する。
我々は、独立仮定が、評価において保守主義を損なうことができる範囲を明らかにする技術を開発する。
論文 参考訳(メタデータ) (2022-08-16T20:27:47Z) - Claim-Dissector: An Interpretable Fact-Checking System with Joint
Re-ranking and Veracity Prediction [4.082750656756811]
本稿では,ファクトチェックと分析のための新しい潜在変数モデルであるCrim-Dissectorを提案する。
検証可能な方法で、証拠ごとの関連性確率とその最終的な妥当性確率への寄与を解き明かす。
その解釈可能な性質にもかかわらず、私たちのシステムはFEVERデータセットの最先端と競合する。
論文 参考訳(メタデータ) (2022-07-28T14:30:06Z) - Increasing Confidence in Adversarial Robustness Evaluations [53.2174171468716]
本稿では,弱い攻撃を識別し,防御評価を弱めるテストを提案する。
本テストでは,各サンプルに対する逆例の存在を保証するため,ニューラルネットワークをわずかに修正した。
これまでに公表された13の防衛のうち、11の防衛について、元の防衛評価は我々のテストに失敗し、これらの防衛を破る強力な攻撃はそれを通過する。
論文 参考訳(メタデータ) (2022-06-28T13:28:13Z) - A Weaker Faithfulness Assumption based on Triple Interactions [89.59955143854556]
より弱い仮定として, 2$-adjacency faithfulness を提案します。
より弱い仮定の下で適用可能な因果発見のための音方向規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:04:08Z) - An Imprecise Probability Approach for Abstract Argumentation based on
Credal Sets [1.3764085113103217]
我々は,議論の確率値が不正確であることを考慮し,拡張の不確かさの度合いを計算する問題に取り組む。
クレーダル集合を用いて議論の不確かさをモデル化し、これらのクレーダル集合から拡張の上下境界を計算する。
論文 参考訳(メタデータ) (2020-09-16T00:52:18Z) - How Much Can We Really Trust You? Towards Simple, Interpretable Trust
Quantification Metrics for Deep Neural Networks [94.65749466106664]
我々は思考実験を行い、信頼と信頼に関する2つの重要な疑問を探求する。
我々は、一連の質問に答える際の行動に基づいて、ディープニューラルネットワークの全体的な信頼性を評価するための一連のメトリクスを紹介します。
提案されたメトリクスは必ずしも完璧ではありませんが、よりよいメトリクスに向かって会話を推し進めることが望まれています。
論文 参考訳(メタデータ) (2020-09-12T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。