論文の概要: Assessing Confidence with Assurance 2.0
- arxiv url: http://arxiv.org/abs/2205.04522v4
- Date: Fri, 3 May 2024 05:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:35:59.275595
- Title: Assessing Confidence with Assurance 2.0
- Title(参考訳): Assurance 2.0による信頼性の評価
- Authors: Robin Bloomfield, John Rushby,
- Abstract要約: 信頼は単一の属性や測定に還元できない、と我々は主張する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体論が一体化して肯定的な声明を下す程度を考察する。
否定的な視点は、典型的には敗者として表されるこの事件に対する疑念と挑戦を記録している。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An assurance case is intended to provide justifiable confidence in the truth of its top claim, which typically concerns safety or security. A natural question is then "how much" confidence does the case provide? We argue that confidence cannot be reduced to a single attribute or measurement. Instead, we suggest it should be based on attributes that draw on three different perspectives: positive, negative, and residual doubts. Positive Perspectives consider the extent to which the evidence and overall argument of the case combine to make a positive statement justifying belief in its claims. We set a high bar for justification, requiring it to be indefeasible. The primary positive measure for this is soundness, which interprets the argument as a logical proof. Confidence in evidence can be expressed probabilistically and we use confirmation measures to ensure that the "weight" of evidence crosses some threshold. In addition, probabilities can be aggregated from evidence through the steps of the argument using probability logics to yield what we call probabilistic valuations for the claims. Negative Perspectives record doubts and challenges to the case, typically expressed as defeaters, and their exploration and resolution. Assurance developers must guard against confirmation bias and should vigorously explore potential defeaters as they develop the case, and should record them and their resolution to avoid rework and to aid reviewers. Residual Doubts: the world is uncertain so not all potential defeaters can be resolved. We explore risks and may deem them acceptable or unavoidable. It is crucial however that these judgments are conscious ones and that they are recorded in the assurance case. This report examines the perspectives in detail and indicates how Clarissa, our prototype toolset for Assurance 2.0, assists in their evaluation.
- Abstract(参考訳): アシュアランス・ケースは、安全やセキュリティに関する主要な主張の真相を正当化できる信頼を提供するためのものである。
では、自然な疑問は、そのケースがどの程度の信頼を提供するのか、ということです。
信頼は単一の属性や測定に還元できない、と我々は主張する。
その代わりに、ポジティブ、ネガティブ、そして不確かさという3つの異なる視点に基づく属性に基づくべきだと提案する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体的な議論が組み合わさった範囲を、その主張に対する信念を正当化する肯定的な声明として考える。
私たちは正当化のために高い基準を設定しました。
これに対する第一の正の測度は音性であり、これは議論を論理的証明として解釈する。
証拠の信頼は確率論的に表すことができ、証拠の「重み」がしきい値を超えたことを保証するための確認措置を用いる。
さらに、確率は、確率論理を用いて主張に対する確率的評価(probabilistic valuations)と呼ぶものを生成する議論のステップを通じて、証拠から集約することができる。
否定的な視点は、典型的には敗者として表現されるこの事件に対する疑念と挑戦とその探索と解決を記録している。
保証開発者は、確認バイアスから守らなければなりません。そして、ケースを開発する際には、潜在的な敗者を探究し、再作業を避け、レビュアーを助けるために、それらとその解決を記録すべきです。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
リスクを探究し、受け入れがたいものや避けられないものと見なすことができます。
しかし、これらの判断は意識的なものであり、保証ケースに記録されていることは重要である。
本報告では,アシュアランス2.0のプロトタイプツールセットであるClarissaがどのように評価を支援しているか,その視点を詳細に検討する。
関連論文リスト
- Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? [21.814007454504978]
大規模言語モデル(LLM)は,自然言語における本質的な不確実性を表現できることが示唆された。
我々は、モデル固有のアサーションに対する信頼のギャップと、それらが伝達される決定性に基づいて、忠実な応答の不確実性を定式化する。
論文 参考訳(メタデータ) (2024-05-27T07:56:23Z) - Defeaters and Eliminative Argumentation in Assurance 2.0 [0.0]
本報告では、アシュアランス2.0において、敗者、および複数レベルの敗者がどのように表現され、評価されるべきかを述べる。
このプロセスの有効な懸念は、人間の判断が誤認しやすく、偏見の確認が難しいことである。
論文 参考訳(メタデータ) (2024-05-16T22:10:01Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - The Decisive Power of Indecision: Low-Variance Risk-Limiting Audits and Election Contestation via Marginal Mark Recording [51.82772358241505]
リスクリミット監査(リスクリミット監査、RLA)は、大規模な選挙の結果を検証する技術である。
我々は、効率を改善し、統計力の進歩を提供する監査の新たなファミリーを定めている。
新しい監査は、複数の可能なマーク解釈を宣言できるように、キャストボイトレコードの標準概念を再考することで実現される。
論文 参考訳(メタデータ) (2024-02-09T16:23:54Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Did You Mean...? Confidence-based Trade-offs in Semantic Parsing [52.28988386710333]
タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。
次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
論文 参考訳(メタデータ) (2023-03-29T17:07:26Z) - Uncertain Evidence in Probabilistic Models and Stochastic Simulators [80.40110074847527]
我々は、不確実性を伴う観測を伴う確率論的モデルにおいて、ベイズ的推論を行うという問題について考察する。
我々は、不確実な証拠をどう解釈するかを探求し、潜伏変数の推論に関連する適切な解釈の重要性を拡大する。
我々は、不確実な証拠を説明するための具体的なガイドラインを考案し、特に一貫性に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-10-21T20:32:59Z) - Demonstrating Software Reliability using Possibly Correlated Tests:
Insights from a Conservative Bayesian Approach [2.152298082788376]
我々は、実行が独立したことを「疑う」という非公式な概念を定式化する。
我々は、独立仮定が、評価において保守主義を損なうことができる範囲を明らかにする技術を開発する。
論文 参考訳(メタデータ) (2022-08-16T20:27:47Z) - Claim-Dissector: An Interpretable Fact-Checking System with Joint
Re-ranking and Veracity Prediction [4.082750656756811]
本稿では,ファクトチェックと分析のための新しい潜在変数モデルであるCrim-Dissectorを提案する。
検証可能な方法で、証拠ごとの関連性確率とその最終的な妥当性確率への寄与を解き明かす。
その解釈可能な性質にもかかわらず、私たちのシステムはFEVERデータセットの最先端と競合する。
論文 参考訳(メタデータ) (2022-07-28T14:30:06Z) - Increasing Confidence in Adversarial Robustness Evaluations [53.2174171468716]
本稿では,弱い攻撃を識別し,防御評価を弱めるテストを提案する。
本テストでは,各サンプルに対する逆例の存在を保証するため,ニューラルネットワークをわずかに修正した。
これまでに公表された13の防衛のうち、11の防衛について、元の防衛評価は我々のテストに失敗し、これらの防衛を破る強力な攻撃はそれを通過する。
論文 参考訳(メタデータ) (2022-06-28T13:28:13Z) - An Imprecise Probability Approach for Abstract Argumentation based on
Credal Sets [1.3764085113103217]
我々は,議論の確率値が不正確であることを考慮し,拡張の不確かさの度合いを計算する問題に取り組む。
クレーダル集合を用いて議論の不確かさをモデル化し、これらのクレーダル集合から拡張の上下境界を計算する。
論文 参考訳(メタデータ) (2020-09-16T00:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。