論文の概要: Whether to trust: the ML leap of faith
- arxiv url: http://arxiv.org/abs/2408.00786v1
- Date: Wed, 17 Jul 2024 14:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:18:32.840910
- Title: Whether to trust: the ML leap of faith
- Title(参考訳): 信じるか:MLの信仰の飛躍
- Authors: Tory Frame, Julian Padget, George Stothart, Elizabeth Coulthard,
- Abstract要約: 信頼は態度として一般的に理解されているが、これを正確に測定したり、管理したりすることはできない。
システム全体、ML、およびMLのコンポーネント部分に対する信頼を尊重するので、ほとんどのユーザは、MLを信頼するときに受ける信頼の跳躍を理解していません。
信頼を構築するための現在の取り組みは、MLのプロセスを説明するものである。これは、非MLの専門家が、それが複雑であるため理解するのが困難であり、説明は、彼ら自身の(知識のない)精神モデルとは無関係である。
本稿では,MLにおける内在的信頼を直接構築する革新的な方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human trust is critical for trustworthy AI adoption. Trust is commonly understood as an attitude, but we cannot accurately measure this, nor manage it. We conflate trust in the overall system, ML, and ML's component parts; so most users do not understand the leap of faith they take when they trust ML. Current efforts to build trust explain ML's process, which can be hard for non-ML experts to comprehend because it is complex, and explanations are unrelated to their own (unarticulated) mental models. We propose an innovative way of directly building intrinsic trust in ML, by discerning and measuring the Leap of Faith (LoF) taken when a user trusts ML. Our LoF matrix identifies where an ML model aligns to a user's own mental model. This match is rigorously yet practically identified by feeding the user's data and objective function both into an ML model and an expert-validated rules-based AI model, a verified point of reference that can be tested a priori against a user's own mental model. The LoF matrix visually contrasts the models' outputs, so the remaining ML-reasoning leap of faith can be discerned. Our proposed trust metrics measure for the first time whether users demonstrate trust through their actions, and we link deserved trust to outcomes. Our contribution is significant because it enables empirical assessment and management of ML trust drivers, to support trustworthy ML adoption. Our approach is illustrated with a long-term high-stakes field study: a 3-month pilot of a sleep-improvement system with embedded AI.
- Abstract(参考訳): 人類の信頼は、信頼できるAIの採用に不可欠である。
信頼は態度として一般的に理解されているが、これを正確に測定したり、管理したりすることはできない。
システム全体、ML、およびMLのコンポーネント部分に対する信頼を尊重するので、ほとんどのユーザは、MLを信頼するときに受ける信頼の跳躍を理解していません。
信頼を構築するための現在の取り組みは、MLのプロセスを説明するものである。これは、非MLの専門家が、それが複雑であるため理解するのが困難であり、説明は、彼ら自身の(知識のない)精神モデルとは無関係である。
本稿では、ユーザがMLを信頼するときに行う信仰の隆起(LoF)を識別し、測定することで、MLの本質的な信頼を直接構築する革新的な方法を提案する。
我々のLoF行列は、MLモデルがユーザーのメンタルモデルとどのように一致しているかを特定する。
このマッチは、ユーザのデータと目的関数を、MLモデルと専門家が検証したルールベースのAIモデルの両方に入力することで、厳密には事実上識別される。
LoF行列はモデルの出力と視覚的に対比するため、残りのML推論的な信仰の跳躍を識別することができる。
提案した信頼度尺度は,ユーザが行動を通じて信頼を示すかどうかを初めて測定し,結果に信頼に値するものをリンクする。
我々の貢献は、MLトラストドライバの実証的な評価と管理を可能にし、信頼できるML導入を支援するために重要である。
当社のアプローチは、組み込みAIを用いた睡眠改善システムの3ヶ月のパイロットとして、長期にわたるハイテイクフィールドスタディで説明されています。
関連論文リスト
- Learning to Route with Confidence Tokens [43.63392143501436]
大規模言語モデルが回答の信頼性を確実に示すことができる範囲について検討する。
本稿では,LLMの信頼性を確実に表現するための軽量トレーニング戦略であるSelf-REFを提案する。
信頼度を言語化したり、トークンの確率を調べるといった従来の手法と比較して、信頼度トークンは下流のルーティングや拒否学習タスクにおいて著しく改善されていることを実証的に示す。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - Fostering Trust and Quantifying Value of AI and ML [0.0]
AIとML推論の信頼について多くの議論がなされているが、それが何を意味するのかを定義するためにはほとんど行われていない。
より信頼できる機械学習推論を生み出すことは、製品の価値を高めるための道です。
論文 参考訳(メタデータ) (2024-07-08T13:25:28Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Evaluation of Predictive Reliability to Foster Trust in Artificial
Intelligence. A case study in Multiple Sclerosis [0.34473740271026115]
機械学習の失敗のスポッティングは、ML予測を使用して臨床上の決定を下す場合、最重要事項である。
我々は,任意のMLモデルのデプロイメントフェーズで使用可能なシンプルなアプローチを提案し,予測を信頼するか否かを提案する。
本手法は,デプロイメント中のML障害の可能性を見極めることによって,臨床医に効果的な支援を提供することを約束する。
論文 参考訳(メタデータ) (2024-02-27T14:48:07Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。
賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文 参考訳(メタデータ) (2023-10-20T14:41:46Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Trust in AI: Interpretability is not necessary or sufficient, while
black-box interaction is necessary and sufficient [0.0]
人工知能に対する人間の信頼の問題は、応用機械学習における最も基本的な問題の1つである。
我々は、AI-as-toolフレームワークを動機付けるために、人間自動信頼に関する統計的学習理論と社会学的レンズから抽出する。
モデルアクセスのはしごによる信頼における解釈可能性の役割を明らかにする。
論文 参考訳(メタデータ) (2022-02-10T19:59:23Z) - SoK: Machine Learning Governance [16.36671448193025]
このような利益とリスクのバランスをとるため、MLガバナンスの概念を開発します。
私たちは、MLシステムの障害の原因となるプリンシパルを保持するためにアイデンティティを使用します。
私たちは、モデルオーナーがシステムのライフサイクルを管理することができる技術の必要性を強調します。
論文 参考訳(メタデータ) (2021-09-20T17:56:22Z) - How Much Can We Really Trust You? Towards Simple, Interpretable Trust
Quantification Metrics for Deep Neural Networks [94.65749466106664]
我々は思考実験を行い、信頼と信頼に関する2つの重要な疑問を探求する。
我々は、一連の質問に答える際の行動に基づいて、ディープニューラルネットワークの全体的な信頼性を評価するための一連のメトリクスを紹介します。
提案されたメトリクスは必ずしも完璧ではありませんが、よりよいメトリクスに向かって会話を推し進めることが望まれています。
論文 参考訳(メタデータ) (2020-09-12T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。