論文の概要: Relabeling Minimal Training Subset to Flip a Prediction
- arxiv url: http://arxiv.org/abs/2305.12809v2
- Date: Wed, 28 Jun 2023 04:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:42:35.957368
- Title: Relabeling Minimal Training Subset to Flip a Prediction
- Title(参考訳): 予測をフリップする最小トレーニングサブセットのリラベル
- Authors: Jinghan Yang, Linjie Xu, Lequan Yu
- Abstract要約: トレーニングポイントの1%未満を許容することは、しばしばモデルの予測を覆すことができる。
我々は,$|mathcalS_t|$がトレーニングセットの雑音比と高い相関を示し,$|mathcalS_t|$は予測確率と相関するが相補的であることを示す。
- 参考スコア(独自算出の注目度): 17.284984873700704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When facing an unsatisfactory prediction from a machine learning model, it is
crucial to investigate the underlying reasons and explore the potential for
reversing the outcome. We ask: can we result in the flipping of a test
prediction $x_t$ by relabeling the smallest subset $\mathcal{S}_t$ of the
training data before the model is trained? We propose an efficient procedure to
identify and relabel such a subset via an extended influence function. We find
that relabeling fewer than 1% of the training points can often flip the model's
prediction. This mechanism can serve multiple purposes: (1) providing an
approach to challenge a model prediction by recovering influential training
subsets; (2) evaluating model robustness with the cardinality of the subset
(i.e., $|\mathcal{S}_t|$); we show that $|\mathcal{S}_t|$ is highly related to
the noise ratio in the training set and $|\mathcal{S}_t|$ is correlated with
but complementary to predicted probabilities; (3) revealing training points
lead to group attribution bias. To the best of our knowledge, we are the first
to investigate identifying and relabeling the minimal training subset required
to flip a given prediction.
- Abstract(参考訳): 機械学習モデルから不十分な予測に直面する場合、基礎となる理由を調査し、その結果を逆転する可能性を探ることが不可欠である。
モデルがトレーニングされる前に、トレーニングデータの最小サブセットである$\mathcal{S}_t$を解放することで、テスト予測を$x_t$に切り替えることができますか?
拡張影響関数を用いてそのような部分集合を同定し、レバー化する効率的な手順を提案する。
トレーニングポイントの1%未満のrelabelingでは、モデルの予測をひっくり返すことがしばしばあります。
このメカニズムは、(1) 影響力のあるトレーニング部分集合を復元してモデル予測に挑戦するためのアプローチを提供する、(2) モデルのロバスト性を評価する(例えば、$|\mathcal{S}_t|$)、(2) トレーニングセットのノイズ比に高い関係があること、および$|\mathcal{S}_t|$ が予測確率と相関するが、予測確率に相補的であること、(3) トレーニングポイントがグループ帰属バイアスにつながること、の3つを示す。
私たちの知る限りでは、私たちは、与えられた予測を覆すのに必要な最小限のトレーニングサブセットを特定し、緩和することについて、最初に調査します。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Self-Directed Linear Classification [50.659479930171585]
オンライン分類では、学習者は、誤りの総数を最小限に抑えるために、オンラインでラベルを予測することを目的としている。
そこで本研究では,予測順序の選択能力について検討し,最低次学習とランダム次学習の分離を初めて確立する。
論文 参考訳(メタデータ) (2023-08-06T15:38:44Z) - How Many and Which Training Points Would Need to be Removed to Flip this
Prediction? [34.9118528281516]
トレーニングデータの最小サブセットを$mathcalS_t$で識別する問題を考える。
トレーニング前に $mathcalS_t$ を含むインスタンスが削除された場合、所定のテストポイント $x_t$ の分類が異なるだろう。
影響関数に基づいて$mathcalS_t$を求めるため,比較的高速な近似法を提案する。
論文 参考訳(メタデータ) (2023-02-04T13:55:12Z) - Memorize to Generalize: on the Necessity of Interpolation in High
Dimensional Linear Regression [6.594338220264161]
機械学習問題における最適な予測リスクを達成するには、トレーニングデータを補間する必要がある。
この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを特徴付ける。
最適な性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。
論文 参考訳(メタデータ) (2022-02-20T18:51:45Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Towards optimally abstaining from prediction [22.937799541125607]
機械学習のあらゆる領域に共通する課題は、トレーニングデータがテストデータのように分散されていないことだ。
一定のコストで予測を控えるモデルを考える。
我々は、Goldwasser、Kalais、Montasser(2020年)の最近の禁断アルゴリズムに基づいて、トランスダクティブバイナリ分類を行った。
論文 参考訳(メタデータ) (2021-05-28T21:44:48Z) - Outlier-robust sparse/low-rank least-squares regression and robust
matrix completion [1.0878040851637998]
ヘテロジニアス雑音を伴う統計的学習フレームワークにおける高次元最小二乗回帰について検討する。
また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレーサリグレス理論を提案する。
論文 参考訳(メタデータ) (2020-12-12T07:42:47Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。