論文の概要: Improving Model Understanding and Trust with Counterfactual Explanations
of Model Confidence
- arxiv url: http://arxiv.org/abs/2206.02790v1
- Date: Mon, 6 Jun 2022 04:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:39:54.806576
- Title: Improving Model Understanding and Trust with Counterfactual Explanations
of Model Confidence
- Title(参考訳): モデル信頼の反事実的説明によるモデル理解と信頼の改善
- Authors: Thao Le, Tim Miller, Ronal Singh and Liz Sonenberg
- Abstract要約: 人間とエージェントのインタラクションシステムにおける信頼度を示すことは、人間とAIシステムの信頼を構築するのに役立つ。
既存の研究の多くは、信頼度スコアをコミュニケーションの形式としてのみ用いた。
本稿では, モデル信頼度を理解するための2つの手法を提案する。
- 参考スコア(独自算出の注目度): 4.385390451313721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show that counterfactual explanations of confidence scores
help users better understand and better trust an AI model's prediction in
human-subject studies. Showing confidence scores in human-agent interaction
systems can help build trust between humans and AI systems. However, most
existing research only used the confidence score as a form of communication,
and we still lack ways to explain why the algorithm is confident. This paper
also presents two methods for understanding model confidence using
counterfactual explanation: (1) based on counterfactual examples; and (2) based
on visualisation of the counterfactual space.
- Abstract(参考訳): 本稿では,AIモデルの人間-対象研究における予測をよりよく理解し,より信頼する上で,信頼度スコアの反実的説明が有効であることを示す。
人間とエージェントのインタラクションシステムにおける信頼度を示すことは、人間とAIシステムの信頼を構築するのに役立つ。
しかし、既存の研究のほとんどは、信頼度スコアをコミュニケーションの形式としてのみ使用しており、なぜアルゴリズムが自信を持っているのかを説明する方法がない。
また, 反現実的説明を用いたモデル信頼度理解手法として, 1) 対実的例に基づく手法, (2) 対実的空間の可視化に基づく手法を提案する。
関連論文リスト
- Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。
賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文 参考訳(メタデータ) (2023-10-20T14:41:46Z) - TrustGuard: GNN-based Robust and Explainable Trust Evaluation with
Dynamicity Support [59.41529066449414]
本稿では,信頼度を考慮した信頼度評価モデルであるTrustGuardを提案する。
TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層アーキテクチャで設計されている。
実験により、TrustGuardは、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-23T07:39:12Z) - Explaining Model Confidence Using Counterfactuals [4.385390451313721]
人間とAIのインタラクションにおける信頼スコアの表示は、人間とAIシステムの信頼構築に役立つことが示されている。
既存の研究のほとんどは、信頼スコアのみをコミュニケーションの形式として用いている。
信頼性スコアの反実的な説明は、参加者が機械学習モデルの予測をよりよく理解し、より信頼するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-03-10T06:22:13Z) - UKP-SQuARE v2 Explainability and Adversarial Attacks for Trustworthy QA [47.8796570442486]
質問回答システムは、現実の意思決定をサポートするアプリケーションにますますデプロイされています。
本質的に解釈可能なモデルやポストホックな説明可能性メソッドは、モデルがその予測にどのように到着するかをユーザが理解するのに役立ちます。
SQuAREの新バージョンであるSQuARE v2を導入し、モデルを比較するための説明可能性インフラストラクチャを提供する。
論文 参考訳(メタデータ) (2022-08-19T13:01:01Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Trust in Human-AI Interaction: Scoping Out Models, Measures, and Methods [12.641141743223377]
AIに注入されたシステムとのインタラクションにおいて、信頼が重要な要因として浮上している。
どんな信頼モデルが使われているのか、どんなシステムに使われているのかは、ほとんど分かっていない。
AIの信頼を測定するための標準的なアプローチはまだ知られていない。
論文 参考訳(メタデータ) (2022-04-30T07:34:19Z) - Trust in AI: Interpretability is not necessary or sufficient, while
black-box interaction is necessary and sufficient [0.0]
人工知能に対する人間の信頼の問題は、応用機械学習における最も基本的な問題の1つである。
我々は、AI-as-toolフレームワークを動機付けるために、人間自動信頼に関する統計的学習理論と社会学的レンズから抽出する。
モデルアクセスのはしごによる信頼における解釈可能性の役割を明らかにする。
論文 参考訳(メタデータ) (2022-02-10T19:59:23Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。