論文の概要: How Many and Which Training Points Would Need to be Removed to Flip this
Prediction?
- arxiv url: http://arxiv.org/abs/2302.02169v1
- Date: Sat, 4 Feb 2023 13:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:47:17.333681
- Title: How Many and Which Training Points Would Need to be Removed to Flip this
Prediction?
- Title(参考訳): この予測を解くには、どのトレーニングポイントを廃止する必要があるか?
- Authors: Jinghan Yang, Sarthak Jain, Byron C. Wallace
- Abstract要約: トレーニングデータの最小サブセットを$mathcalS_t$で識別する問題を考える。
トレーニング前に $mathcalS_t$ を含むインスタンスが削除された場合、所定のテストポイント $x_t$ の分類が異なるだろう。
影響関数に基づいて$mathcalS_t$を求めるため,比較的高速な近似法を提案する。
- 参考スコア(独自算出の注目度): 34.9118528281516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of identifying a minimal subset of training data
$\mathcal{S}_t$ such that if the instances comprising $\mathcal{S}_t$ had been
removed prior to training, the categorization of a given test point $x_t$ would
have been different. Identifying such a set may be of interest for a few
reasons. First, the cardinality of $\mathcal{S}_t$ provides a measure of
robustness (if $|\mathcal{S}_t|$ is small for $x_t$, we might be less confident
in the corresponding prediction), which we show is correlated with but
complementary to predicted probabilities. Second, interrogation of
$\mathcal{S}_t$ may provide a novel mechanism for contesting a particular model
prediction: If one can make the case that the points in $\mathcal{S}_t$ are
wrongly labeled or irrelevant, this may argue for overturning the associated
prediction. Identifying $\mathcal{S}_t$ via brute-force is intractable. We
propose comparatively fast approximation methods to find $\mathcal{S}_t$ based
on influence functions, and find that -- for simple convex text classification
models -- these approaches can often successfully identify relatively small
sets of training examples which, if removed, would flip the prediction. To our
knowledge, this is the first work in to investigate the problem of identifying
a minimal training set necessary to flip a given prediction in the context of
machine learning.
- Abstract(参考訳): トレーニングデータの最小部分集合である $\mathcal{S}_t$ を識別する問題は、もし $\mathcal{S}_t$ を構成するインスタンスがトレーニング前に削除された場合、与えられたテストポイント $x_t$ の分類が異なるであろう。
このような集合の同定にはいくつかの理由がある。
まず、$\mathcal{s}_t$ の濃度はロバスト性の尺度を提供する($|\mathcal{s}_t|$ が $x_t$ で小さい場合は、対応する予測に対する自信が低くなるかもしれない)。
第二に、$\mathcal{s}_t$ の尋問は、特定のモデル予測に異議を唱えるための新しいメカニズムを提供するかもしれない:$\mathcal{s}_t$ の点が誤ってラベル付けされたり無関係であったりした場合、これは関連する予測を覆すために議論するかもしれない。
brute-force による $\mathcal{S}_t$ の識別は難解である。
我々は、影響関数に基づいて$\mathcal{s}_t$を求めるための比較的高速な近似法を提案し、単純な凸テキスト分類モデルにおいて、これらのアプローチは、予測をひっくり返すような、比較的小さなトレーニング例のセットをうまく識別できることを発見した。
我々の知る限り、これは機械学習の文脈で与えられた予測を反転させるのに必要な最小限のトレーニングセットを特定することの問題を調査する最初の試みである。
関連論文リスト
- Optimal level set estimation for non-parametric tournament and crowdsourcing problems [49.75262185577198]
クラウドソーシングによって動機づけられた我々は、$d$の質問に対する$n$の専門家の回答の正しさを部分的に観察する問題を考える。
本稿では、専門家$i$が疑問に答える確率を含む行列$M$が、行と列の置換までの双等方性であることを仮定する。
我々は,この分類問題に対して最小限のアルゴリズムを最適に構築する。
論文 参考訳(メタデータ) (2024-08-27T18:28:31Z) - Revisiting Agnostic PAC Learning [30.67561230812141]
PAC学習は、Valiant'84とVapnik and Chervonenkis'64,'74にさかのぼる、教師あり学習を研究するための古典的なモデルである。
経験的リスク最小化(英: Empirical Risk Minimization、ERM)は、訓練データに最も少ない誤りを犯すために$mathcalH$から仮説を出力する自然学習アルゴリズムである。
私たちはPAC学習を再考し、最良仮説の性能を$tau:=Pr_mathcalD[hstar_mathと表すと、ERMが実際は準最適であることを示す。
論文 参考訳(メタデータ) (2024-07-29T08:20:49Z) - Relabeling Minimal Training Subset to Flip a Prediction [20.708004593740004]
トレーニングポイントの2%未満を許容することは、常に予測を覆すことができる。
我々は,$|mathcalS_t|$がトレーニングセットの雑音比と高い相関を示し,$|mathcalS_t|$は予測確率と相関するが相補的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T08:10:43Z) - HappyMap: A Generalized Multi-calibration Method [23.086009024383024]
マルチキャリブレーション(英: Multi-calibration)はアルゴリズムフェアネスの分野を起源とする、強力で進化した概念である。
この研究では、$(f(x)-y)$ という用語を1つの特定の写像とみなし、豊かなクラスの写像のパワーを探求する。
マルチキャリブレーションを一般化したtextitHappyMap を提案する。
論文 参考訳(メタデータ) (2023-03-08T05:05:01Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - On Optimal Learning Under Targeted Data Poisoning [48.907813854832206]
本研究は,学習者によって達成可能な最小のエラー$epsilon=epsilon(eta)$を,そのような敵の存在下で特徴付けることを目的とする。
注目すべきは,上界が決定論的学習者によって達成できることである。
論文 参考訳(メタデータ) (2022-10-06T06:49:48Z) - Agnostic learning with unknown utilities [70.14742836006042]
現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。
我々はこれを未知のユーティリティによる不可知学習として研究する。
サンプルされた点のみのユーティリティを推定することで、よく一般化した決定関数を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-17T08:22:04Z) - Proving Non-Inclusion of B\"uchi Automata based on Monte Carlo Sampling [19.09848789158933]
B"uchiautoa non-inclusion $mathcalL(mathcalA) notsubseteq mathcalL(mathcalB)$を証明するための具体的なアルゴリズムを提案する。
$mathsfIMC2$は、B"uchiautoaのインクルージョンに対する反例を見つける高速で信頼性の高い方法である。
論文 参考訳(メタデータ) (2020-07-05T10:17:02Z) - Taking a hint: How to leverage loss predictors in contextual bandits? [63.546913998407405]
我々は,損失予測の助けを借りて,文脈的包帯における学習を研究する。
最適な後悔は$mathcalO(minsqrtT, sqrtmathcalETfrac13)$である。
論文 参考訳(メタデータ) (2020-03-04T07:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。