論文の概要: Assessing Confidence with Assurance 2.0
- arxiv url: http://arxiv.org/abs/2205.04522v4
- Date: Fri, 3 May 2024 05:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:35:59.275595
- Title: Assessing Confidence with Assurance 2.0
- Title(参考訳): Assurance 2.0による信頼性の評価
- Authors: Robin Bloomfield, John Rushby,
- Abstract要約: 信頼は単一の属性や測定に還元できない、と我々は主張する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体論が一体化して肯定的な声明を下す程度を考察する。
否定的な視点は、典型的には敗者として表されるこの事件に対する疑念と挑戦を記録している。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An assurance case is intended to provide justifiable confidence in the truth of its top claim, which typically concerns safety or security. A natural question is then "how much" confidence does the case provide? We argue that confidence cannot be reduced to a single attribute or measurement. Instead, we suggest it should be based on attributes that draw on three different perspectives: positive, negative, and residual doubts. Positive Perspectives consider the extent to which the evidence and overall argument of the case combine to make a positive statement justifying belief in its claims. We set a high bar for justification, requiring it to be indefeasible. The primary positive measure for this is soundness, which interprets the argument as a logical proof. Confidence in evidence can be expressed probabilistically and we use confirmation measures to ensure that the "weight" of evidence crosses some threshold. In addition, probabilities can be aggregated from evidence through the steps of the argument using probability logics to yield what we call probabilistic valuations for the claims. Negative Perspectives record doubts and challenges to the case, typically expressed as defeaters, and their exploration and resolution. Assurance developers must guard against confirmation bias and should vigorously explore potential defeaters as they develop the case, and should record them and their resolution to avoid rework and to aid reviewers. Residual Doubts: the world is uncertain so not all potential defeaters can be resolved. We explore risks and may deem them acceptable or unavoidable. It is crucial however that these judgments are conscious ones and that they are recorded in the assurance case. This report examines the perspectives in detail and indicates how Clarissa, our prototype toolset for Assurance 2.0, assists in their evaluation.
- Abstract(参考訳): アシュアランス・ケースは、安全やセキュリティに関する主要な主張の真相を正当化できる信頼を提供するためのものである。
では、自然な疑問は、そのケースがどの程度の信頼を提供するのか、ということです。
信頼は単一の属性や測定に還元できない、と我々は主張する。
その代わりに、ポジティブ、ネガティブ、そして不確かさという3つの異なる視点に基づく属性に基づくべきだと提案する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体的な議論が組み合わさった範囲を、その主張に対する信念を正当化する肯定的な声明として考える。
私たちは正当化のために高い基準を設定しました。
これに対する第一の正の測度は音性であり、これは議論を論理的証明として解釈する。
証拠の信頼は確率論的に表すことができ、証拠の「重み」がしきい値を超えたことを保証するための確認措置を用いる。
さらに、確率は、確率論理を用いて主張に対する確率的評価(probabilistic valuations)と呼ぶものを生成する議論のステップを通じて、証拠から集約することができる。
否定的な視点は、典型的には敗者として表現されるこの事件に対する疑念と挑戦とその探索と解決を記録している。
保証開発者は、確認バイアスから守らなければなりません。そして、ケースを開発する際には、潜在的な敗者を探究し、再作業を避け、レビュアーを助けるために、それらとその解決を記録すべきです。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
リスクを探究し、受け入れがたいものや避けられないものと見なすことができます。
しかし、これらの判断は意識的なものであり、保証ケースに記録されていることは重要である。
本報告では,アシュアランス2.0のプロトタイプツールセットであるClarissaがどのように評価を支援しているか,その視点を詳細に検討する。
関連論文リスト
- Uncertainty Quantification in Stereo Matching [61.73532883992135]
ステレオマッチングのための新しいフレームワークとその不確実性定量化を提案する。
我々は、不確実性と推定データの尺度としてベイズリスクを採用し、個別に不確実性をモデル化する。
我々は,不確実性の少ないデータポイントを選択することにより,予測精度を向上させるために不確実性手法を適用した。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - Correctness is not Faithfulness in RAG Attributions [47.48625339105129]
ソースドキュメントを明示的に引用することで、ユーザは生成されたレスポンスを検証し、信頼を高めることができる。
先行研究は引用正当性(引用された文書が対応する文をサポートするかどうか)を概ね評価している。
評価された回答に対する信頼を確立するためには、引用の正しさと引用の忠実さの両方を検討する必要がある。
論文 参考訳(メタデータ) (2024-12-23T21:57:11Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - On the Robustness of Adversarial Training Against Uncertainty Attacks [9.180552487186485]
学習問題において、手元のタスクに固有のノイズは、ある程度の不確実性なく推論する可能性を妨げている。
本研究は、敵の例、すなわち、誤分類を引き起こす注意深く摂動されたサンプルに対する防御が、より安全で信頼性の高い不確実性推定を保証していることを実証的および理論的に明らかにする。
我々は,CIFAR-10およびImageNetデータセット上で,公開ベンチマークのRobustBenchから,複数の逆ロバストモデルを評価する。
論文 参考訳(メタデータ) (2024-10-29T11:12:44Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Confidence in Assurance 2.0 Cases [0.0]
私たちは、アシュアランス2.0と呼ばれる厳格なアプローチで、いかに自信を評価できるかを考えます。
私たちの目標は信頼を損なうことであり、それを4つの異なる視点からアプローチすることです。
論文 参考訳(メタデータ) (2024-09-16T19:00:21Z) - Defeaters and Eliminative Argumentation in Assurance 2.0 [0.0]
本報告では、アシュアランス2.0において、敗者、および複数レベルの敗者がどのように表現され、評価されるべきかを述べる。
このプロセスの有効な懸念は、人間の判断が誤認しやすく、偏見の確認が難しいことである。
論文 参考訳(メタデータ) (2024-05-16T22:10:01Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - Did You Mean...? Confidence-based Trade-offs in Semantic Parsing [52.28988386710333]
タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。
次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
論文 参考訳(メタデータ) (2023-03-29T17:07:26Z) - Increasing Confidence in Adversarial Robustness Evaluations [53.2174171468716]
本稿では,弱い攻撃を識別し,防御評価を弱めるテストを提案する。
本テストでは,各サンプルに対する逆例の存在を保証するため,ニューラルネットワークをわずかに修正した。
これまでに公表された13の防衛のうち、11の防衛について、元の防衛評価は我々のテストに失敗し、これらの防衛を破る強力な攻撃はそれを通過する。
論文 参考訳(メタデータ) (2022-06-28T13:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。