論文の概要: How to Measure Human-AI Prediction Accuracy in Explainable AI Systems
- arxiv url: http://arxiv.org/abs/2409.00069v1
- Date: Fri, 23 Aug 2024 19:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:21:17.479758
- Title: How to Measure Human-AI Prediction Accuracy in Explainable AI Systems
- Title(参考訳): 説明可能なAIシステムにおけるヒューマンAI予測精度の測定方法
- Authors: Sujay Koujalgi, Andrew Anderson, Iyadunni Adenuga, Shikha Soneji, Rupika Dikkala, Teresita Guzman Nader, Leo Soccio, Sourav Panda, Rupak Kumar Das, Margaret Burnett, Jonathan Dodge,
- Abstract要約: 人間との実証的研究において、明らかなアプローチは、タスクを二分法(すなわち、予測は正しいか間違っているか)としてフレーム化することである。
問題の要点は、二項フレーミングが異なる「怒り」の度合いのニュアンスを捉えていないことである。
我々は「部分的誤り」を測定するための3つの数学的基盤を提案する。
- 参考スコア(独自算出の注目度): 1.9401464646154982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing an AI system's behavior-particularly in Explainable AI Systems-is sometimes done empirically, by measuring people's abilities to predict the agent's next move-but how to perform such measurements? In empirical studies with humans, an obvious approach is to frame the task as binary (i.e., prediction is either right or wrong), but this does not scale. As output spaces increase, so do floor effects, because the ratio of right answers to wrong answers quickly becomes very small. The crux of the problem is that the binary framing is failing to capture the nuances of the different degrees of "wrongness." To address this, we begin by proposing three mathematical bases upon which to measure "partial wrongness." We then uses these bases to perform two analyses on sequential decision-making domains: the first is an in-lab study with 86 participants on a size-36 action space; the second is a re-analysis of a prior study on a size-4 action space. Other researchers adopting our operationalization of the prediction task and analysis methodology will improve the rigor of user studies conducted with that task, which is particularly important when the domain features a large output space.
- Abstract(参考訳): AIシステムの振る舞いを評価する - 特に説明可能なAIシステムにおいて-は、エージェントの次の動きを予測する人々の能力を測定することによって、実証的に実施されることがある。
人間との実証的研究では、タスクを二分法(すなわち予測は正しいか間違っているか)で表すことが明らかだが、これはスケールしない。
出力空間が増加するにつれて、正しい答えと間違った答えの比率が非常に小さくなるため、床効果も大きくなる。
問題の要点は、二項フレーミングが異なる「怒り」の度合いのニュアンスを捉えていないことである。
この問題に対処するために、我々は「部分的誤り」を測定するための3つの数学的基礎の提案から始める。
次に、これらのベースを用いて、逐次決定領域に関する2つの分析を行う。第1は、サイズ36のアクション空間における86人の参加者によるインラボスタディであり、第2は、サイズ4のアクション空間に関する以前の研究の再分析である。
予測タスクと分析手法の運用を取り入れた他の研究者は、そのタスクで実施したユーザスタディの厳密さを改善するだろう。
関連論文リスト
- The Relative Value of Prediction in Algorithmic Decision Making [0.0]
アルゴリズムによる意思決定における予測の相対的な価値は何か?
我々は,拡張アクセスの相対値を決定する,単純でシャープな条件を同定する。
本稿では,これらの理論的洞察を用いて,アルゴリズムによる意思決定システムの設計を現実的に導く方法について述べる。
論文 参考訳(メタデータ) (2023-12-13T20:52:45Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Human-Algorithm Collaboration: Achieving Complementarity and Avoiding
Unfairness [92.26039686430204]
慎重に設計されたシステムであっても、補完的な性能はあり得ないことを示す。
まず,簡単な人間アルゴリズムをモデル化するための理論的枠組みを提案する。
次に、このモデルを用いて相補性が不可能な条件を証明する。
論文 参考訳(メタデータ) (2022-02-17T18:44:41Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Role of Human-AI Interaction in Selective Prediction [20.11364033416315]
我々は、AIシステムの遅延決定について、異なる種類の情報を人間に伝達する影響について研究する。
我々は,AIの予測は明らかにせず,遅延する決定を人間に伝えることで,人間のパフォーマンスを大幅に向上させることが可能であることを示す。
論文 参考訳(メタデータ) (2021-12-13T16:03:13Z) - Development of Human Motion Prediction Strategy using Inception Residual
Block [1.0705399532413613]
Inception Residual Block (IRB) を提案する。
我々の主な貢献は、事前に観測されたポーズと次の予測されたポーズの間に連続性を持つように、入力と開始ブロックの出力の間の残差接続を提案することである。
提案したアーキテクチャでは、人間のポーズに関する事前知識をよりよく学習し、論文で詳述したよりはるかに高い予測精度を達成する。
論文 参考訳(メタデータ) (2021-08-09T12:49:48Z) - Challenging common interpretability assumptions in feature attribution
explanations [0.0]
大規模な人・物体実験により,3つの共通解釈可能性仮定の妥当性を実証的に評価した。
特徴帰属の説明は、人間の意思決定者にとって、我々のタスクに限界効用をもたらす。
論文 参考訳(メタデータ) (2020-12-04T17:57:26Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - Beyond accuracy: quantifying trial-by-trial behaviour of CNNs and humans
by measuring error consistency [10.028543085687803]
認知科学と行動神経科学における中心的な問題は、2つ以上の意思決定者(脳かアルゴリズムか)が同じ戦略を使用するかどうかを確認することである。
2つの意思決定システムが同一入力に対してシステム的にエラーを発生させるかどうかを定量化するための定量的解析であるトライアル・バイ・トライアル・エラー整合性を導入する。
論文 参考訳(メタデータ) (2020-06-30T12:47:17Z) - On Adversarial Examples and Stealth Attacks in Artificial Intelligence
Systems [62.997667081978825]
本稿では,汎用人工知能(AI)システムに対する2種類の多元性行動の評価と分析を行うための公式な枠組みを提案する。
最初のクラスは、逆例を含み、誤分類を引き起こす入力データの小さな摂動の導入を懸念する。
第2のクラスは、ここで初めて導入され、ステルス攻撃と名付けられたもので、AIシステム自体に対する小さな摂動を伴う。
論文 参考訳(メタデータ) (2020-04-09T10:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。