Fugu-MT 論文翻訳(概要): Explaining Model Confidence Using Counterfactuals

論文の概要: Explaining Model Confidence Using Counterfactuals

arxiv url: http://arxiv.org/abs/2303.05729v1
Date: Fri, 10 Mar 2023 06:22:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-13 15:59:08.687597
Title: Explaining Model Confidence Using Counterfactuals
Title（参考訳）: 反事実を用いたモデル信頼度の説明
Authors: Thao Le, Tim Miller, Ronal Singh and Liz Sonenberg
Abstract要約: 人間とAIのインタラクションにおける信頼スコアの表示は、人間とAIシステムの信頼構築に役立つことが示されている。既存の研究のほとんどは、信頼スコアのみをコミュニケーションの形式として用いている。信頼性スコアの反実的な説明は、参加者が機械学習モデルの予測をよりよく理解し、より信頼するのに役立つことを示す。
参考スコア（独自算出の注目度）: 4.385390451313721
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Displaying confidence scores in human-AI interaction has been shown to help build trust between humans and AI systems. However, most existing research uses only the confidence score as a form of communication. As confidence scores are just another model output, users may want to understand why the algorithm is confident to determine whether to accept the confidence score. In this paper, we show that counterfactual explanations of confidence scores help study participants to better understand and better trust a machine learning model's prediction. We present two methods for understanding model confidence using counterfactual explanation: (1) based on counterfactual examples; and (2) based on visualisation of the counterfactual space. Both increase understanding and trust for study participants over a baseline of no explanation, but qualitative results show that they are used quite differently, leading to recommendations of when to use each one and directions of designing better explanations.
Abstract（参考訳）: 人間とAIのインタラクションにおける信頼スコアの表示は、人間とAIシステムの信頼構築に役立つことが示されている。しかし、既存の研究のほとんどは信頼スコアのみをコミュニケーションの形式として用いている。信頼スコアは単なるモデル出力であるので、なぜアルゴリズムが信頼スコアを受け入れるかどうかを判断する自信があるのかを理解したいかもしれない。本稿では,信頼性スコアの反実的説明が,機械学習モデルの予測をよりよく理解し,より信頼する上で有効であることを示す。本研究は,(1) 対実例に基づくモデル信頼度,(2) 対実空間の可視化に基づくモデル信頼度を理解するための2つの手法を提案する。無説明のベースラインよりも参加者の理解と信頼を増すが、質的な結果から、それぞれが全く異なる使われ方をしていることが示され、いつ使うか、より良い説明を設計する方向が推奨される。

関連論文リスト

Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文参考訳（メタデータ） (2025-02-03T07:43:27Z)
Fostering Trust and Quantifying Value of AI and ML [0.0]
AIとML推論の信頼について多くの議論がなされているが、それが何を意味するのかを定義するためにはほとんど行われていない。より信頼できる機械学習推論を生み出すことは、製品の価値を高めるための道です。
論文参考訳（メタデータ） (2024-07-08T13:25:28Z)
Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文参考訳（メタデータ） (2024-06-07T20:25:05Z)
A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文参考訳（メタデータ） (2023-10-20T14:41:46Z)
Trust, but Verify: Using Self-Supervised Probing to Improve Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文参考訳（メタデータ） (2023-02-06T08:57:20Z)
Improving the Reliability for Confidence Estimation [16.952133489480776]
信頼度推定は、デプロイ中のモデルの予測出力の信頼性を評価することを目的としたタスクである。これまでの研究は、信頼度推定モデルが持つべき2つの重要な特性を概説してきた。信頼度推定モデルにおいて、両方の品質を同時に改善できるメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-13T06:34:23Z)
UKP-SQuARE v2 Explainability and Adversarial Attacks for Trustworthy QA [47.8796570442486]
質問回答システムは、現実の意思決定をサポートするアプリケーションにますますデプロイされています。本質的に解釈可能なモデルやポストホックな説明可能性メソッドは、モデルがその予測にどのように到着するかをユーザが理解するのに役立ちます。 SQuAREの新バージョンであるSQuARE v2を導入し、モデルを比較するための説明可能性インフラストラクチャを提供する。
論文参考訳（メタデータ） (2022-08-19T13:01:01Z)
Improving Model Understanding and Trust with Counterfactual Explanations of Model Confidence [4.385390451313721]
人間とエージェントのインタラクションシステムにおける信頼度を示すことは、人間とAIシステムの信頼を構築するのに役立つ。既存の研究の多くは、信頼度スコアをコミュニケーションの形式としてのみ用いた。本稿では, モデル信頼度を理解するための2つの手法を提案する。
論文参考訳（メタデータ） (2022-06-06T04:04:28Z)
An evaluation of word-level confidence estimation for end-to-end automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討 4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文参考訳（メタデータ） (2021-01-14T09:51:59Z)
Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文参考訳（メタデータ） (2020-10-15T03:07:23Z)
How Much Can We Really Trust You? Towards Simple, Interpretable Trust Quantification Metrics for Deep Neural Networks [94.65749466106664]
我々は思考実験を行い、信頼と信頼に関する2つの重要な疑問を探求する。我々は、一連の質問に答える際の行動に基づいて、ディープニューラルネットワークの全体的な信頼性を評価するための一連のメトリクスを紹介します。提案されたメトリクスは必ずしも完璧ではありませんが、よりよいメトリクスに向かって会話を推し進めることが望まれています。
論文参考訳（メタデータ） (2020-09-12T17:37:36Z)
Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文参考訳（メタデータ） (2020-01-29T00:04:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。