論文の概要: Visual Validation versus Visual Estimation: A Study on the Average Value
in Scatterplots
- arxiv url: http://arxiv.org/abs/2307.09330v1
- Date: Tue, 18 Jul 2023 15:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:16:31.923624
- Title: Visual Validation versus Visual Estimation: A Study on the Average Value
in Scatterplots
- Title(参考訳): 視覚的検証と視覚的推定 : 散乱体の平均値の検討
- Authors: Daniel Braun, Ashley Suh, Remco Chang, Michael Gleicher, Tatiana von
Landesberger
- Abstract要約: 個人がデータに適合する統計モデルを視覚的に検証する能力について検討する。
人々がどのようにモデルを視覚的に検証できるか、その性能が視覚的および計算的推定とどのように比較できるかは分かっていない。
- 参考スコア(独自算出の注目度): 14.064406144469613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the ability of individuals to visually validate statistical
models in terms of their fit to the data. While visual model estimation has
been studied extensively, visual model validation remains under-investigated.
It is unknown how well people are able to visually validate models, and how
their performance compares to visual and computational estimation. As a
starting point, we conducted a study across two populations (crowdsourced and
volunteers). Participants had to both visually estimate (i.e, draw) and
visually validate (i.e., accept or reject) the frequently studied model of
averages. Across both populations, the level of accuracy of the models that
were considered valid was lower than the accuracy of the estimated models. We
find that participants' validation and estimation were unbiased. Moreover,
their natural critical point between accepting and rejecting a given mean value
is close to the boundary of its 95% confidence interval, indicating that the
visually perceived confidence interval corresponds to a common statistical
standard. Our work contributes to the understanding of visual model validation
and opens new research opportunities.
- Abstract(参考訳): 個人がデータに適合する統計モデルを視覚的に検証する能力について検討する。
視覚モデル推定は広く研究されているが、視覚モデル検証は未検討のままである。
人々がどのようにモデルを視覚的に検証できるか、その性能が視覚的および計算的推定と比較できるかは不明である。
出発点として,我々は2つの集団(クロードソースとボランティア)を対象に調査を行った。
参加者は、視覚的に見積もる(すなわちドロー)ことと、頻繁に研究される平均のモデルを視覚的に検証する(受け入れるか拒否するか)必要があった。
いずれの集団においても,有効と考えられるモデルの精度は,推定モデルの精度よりも低かった。
参加者の検証と評価は偏りがないことがわかった。
さらに、与えられた平均値の受け入れと拒否の間の自然な臨界点は、95%の信頼区間の境界に近く、視覚的に知覚される信頼区間が共通の統計基準に対応することを示す。
我々の研究は視覚モデル検証の理解に寄与し、新たな研究機会を開く。
関連論文リスト
- Trust Your Gut: Comparing Human and Machine Inference from Noisy Visualizations [7.305342793164905]
人間の直観が理想的な統計的合理性を超えたシナリオを考察する。
その結果,合理性から外れた場合でも,可視化に対するアナリストの反応が有利である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-23T22:39:57Z) - Beware of Validation by Eye: Visual Validation of Linear Trends in Scatterplots [10.692984164096574]
斜面の視覚的評価の精度は斜面の視覚的検証よりも高い。
どちらの場合も「急すぎる」斜面に偏りがあることがわかりました。
第2の実験では,レグレッション・ビジュアライゼーションのための共通設計を導入することで,視覚的妥当性が向上するかどうかを検討した。
論文 参考訳(メタデータ) (2024-07-16T11:41:24Z) - Evaluating Perceptual Distance Models by Fitting Binomial Distributions to Two-Alternative Forced Choice Data [47.18802526899955]
クラウドソースの知覚データセットが登場し、三つ子間で画像が共有されないため、ランク付けが不可能になった。
両面分布を用いた2AFC実験において,基礎となる意思決定過程を統計的にモデル化する。
距離モデルに対する有意義かつ十分に確立されたメトリクスを、単なる予測精度をパーセンテージ・アグリーメントとして計算する。
論文 参考訳(メタデータ) (2024-03-15T15:21:04Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Toward Generalizable Machine Learning Models in Speech, Language, and
Hearing Sciences: Estimating Sample Size and Reducing Overfitting [1.8416014644193064]
本研究ではモンテカルロシミュレーションを用いて,採用したクロスバリデーション法と特徴の離散パワーの相互作用を定量化する。
単一ホールドアウトで必要なサンプルサイズは、ネストしたクロスバリデーションを使用する場合、必要なものよりも50%高い可能性がある。
論文 参考訳(メタデータ) (2023-08-22T05:14:42Z) - Bootstrapping the Cross-Validation Estimate [3.5159221757909656]
クロスバリデーションは予測モデルの性能を評価するために広く用いられている手法である。
見積もりに関連する不確実性を正確に定量化することが不可欠である。
本稿では,クロスバリデーション推定の標準誤差を迅速に推定する高速ブートストラップ法を提案する。
論文 参考訳(メタデータ) (2023-07-01T07:50:54Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Unravelling the Effect of Image Distortions for Biased Prediction of
Pre-trained Face Recognition Models [86.79402670904338]
画像歪みの存在下での4つの最先端深層顔認識モデルの性能評価を行った。
我々は、画像歪みが、異なるサブグループ間でのモデルの性能ギャップと関係していることを観察した。
論文 参考訳(メタデータ) (2021-08-14T16:49:05Z) - Plinko: A Theory-Free Behavioral Measure of Priors for Statistical
Learning and Mental Model Updating [62.997667081978825]
Plinko(リンク)は,参加者が利用可能なすべての結果に対してボール滴の分布を推定する行動課題である。
対象者は,確率分布の確率分布を中心にクラスタリングし,事前クラスタメンバシップは学習能力を示す可能性があることを示す。
我々は,個々の参加者が信頼できる表現であり,物理的に不可解な球滴分布に直面した場合,学習が阻害されないことを検証した。
論文 参考訳(メタデータ) (2021-07-23T22:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。