論文の概要: Where Does My Model Underperform? A Human Evaluation of Slice Discovery
Algorithms
- arxiv url: http://arxiv.org/abs/2306.08167v1
- Date: Tue, 13 Jun 2023 22:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 20:54:22.929331
- Title: Where Does My Model Underperform? A Human Evaluation of Slice Discovery
Algorithms
- Title(参考訳): 私のモデルはどこで不適合か?
スライス発見アルゴリズムの人間による評価
- Authors: Nari Johnson, \'Angel Alexander Cabrera, Gregory Plumb, Ameet
Talwalkar
- Abstract要約: 本研究では,2つの最先端スライス探索アルゴリズムをユーザに対して提示し,オブジェクト検出モデルが動作しない場所に関する仮説を提示する。
以上の結果から,これらのツールが本質的なベースラインよりも有益であることが示唆された。
この結果から,スライス発見のための新しいツールの設計と評価において,ユーザ中心の重要性が示唆された。
- 参考スコア(独自算出の注目度): 17.731343376153152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models that achieve high average accuracy can still
underperform on semantically coherent subsets (i.e. "slices") of data. This
behavior can have significant societal consequences for the safety or bias of
the model in deployment, but identifying these underperforming slices can be
difficult in practice, especially in domains where practitioners lack access to
group annotations to define coherent subsets of their data. Motivated by these
challenges, ML researchers have developed new slice discovery algorithms that
aim to group together coherent and high-error subsets of data. However, there
has been little evaluation focused on whether these tools help humans form
correct hypotheses about where (for which groups) their model underperforms. We
conduct a controlled user study (N = 15) where we show 40 slices output by two
state-of-the-art slice discovery algorithms to users, and ask them to form
hypotheses about where an object detection model underperforms. Our results
provide positive evidence that these tools provide some benefit over a naive
baseline, and also shed light on challenges faced by users during the
hypothesis formation step. We conclude by discussing design opportunities for
ML and HCI researchers. Our findings point to the importance of centering users
when designing and evaluating new tools for slice discovery.
- Abstract(参考訳): 平均精度の高い機械学習(ML)モデルは、データのセマンティックコヒーレントなサブセット(すなわち「スライス」)ではまだ性能が低い。
この行動は、デプロイメントにおけるモデルの安全性やバイアスに重大な社会的影響をもたらす可能性があるが、特に実践者がデータの一貫性のあるサブセットを定義するためにグループアノテーションにアクセスできないドメインにおいて、これらの不適切なスライスを特定することは、実際は困難である。
これらの課題に動機づけられたmlの研究者は、データのコヒーレントとハイエラーのサブセットをグループ化することを目的とした、新しいスライス発見アルゴリズムを開発した。
しかしながら、これらのツールが人間の正しい仮説形成に役立てるかどうか(どのグループにとって)についてはほとんど評価されていない。
制御されたユーザスタディ(N = 15)を行い、2つの最先端スライス探索アルゴリズムによって出力される40個のスライスをユーザに提示し、オブジェクト検出モデルが動作しない場所に関する仮説を作成する。
以上の結果から,これらのツールが素直なベースラインよりも有益であることを示すとともに,仮説形成段階においてユーザが直面する課題にも光を当てることができた。
MLとHCI研究者のための設計の機会について論じる。
スライス発見のための新しいツールの設計と評価において,ユーザ中心の重要性が指摘された。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Error Discovery by Clustering Influence Embeddings [7.27282591214364]
本稿では,モデルが性能の低いテスト例群(スライス)を識別する手法を提案する。
我々はコヒーレンスを任意のスライス発見法が満たすべき重要な特性として定式化する。
InfEmbedという新しいスライス発見手法を考案し、トレーニングデータに類似した影響を受けているスライスを返却することでコヒーレンスを満足する。
論文 参考訳(メタデータ) (2023-12-07T21:42:55Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。