論文の概要: Relabeling Minimal Training Subset to Flip a Prediction
- arxiv url: http://arxiv.org/abs/2305.12809v4
- Date: Sat, 3 Feb 2024 07:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:28:10.471874
- Title: Relabeling Minimal Training Subset to Flip a Prediction
- Title(参考訳): 予測をフリップする最小トレーニングサブセットのリラベル
- Authors: Jinghan Yang, Linjie Xu, Lequan Yu
- Abstract要約: トレーニングポイントの2%未満を許容することは、常に予測を覆すことができる。
我々は,$|mathcalS_t|$がトレーニングセットの雑音比と高い相関を示し,$|mathcalS_t|$は予測確率と相関するが相補的であることを示す。
- 参考スコア(独自算出の注目度): 20.708004593740004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When facing an unsatisfactory prediction from a machine learning model, users
can be interested in investigating the underlying reasons and exploring the
potential for reversing the outcome. We ask: To flip the prediction on a test
point $x_t$, how to identify the smallest training subset $\mathcal{S}_t$ that
we need to relabel? We propose an efficient algorithm to identify and relabel
such a subset via an extended influence function for binary classification
models with convex loss. We find that relabeling fewer than 2% of the training
points can always flip a prediction. This mechanism can serve multiple
purposes: (1) providing an approach to challenge a model prediction by altering
training points; (2) evaluating model robustness with the cardinality of the
subset (i.e., $|\mathcal{S}_t|$); we show that $|\mathcal{S}_t|$ is highly
related to the noise ratio in the training set and $|\mathcal{S}_t|$ is
correlated with but complementary to predicted probabilities; and (3) revealing
training points lead to group attribution bias. To the best of our knowledge,
we are the first to investigate identifying and relabeling the minimal training
subset required to flip a given prediction.
- Abstract(参考訳): 機械学習モデルから満足のいく予測に直面すると、ユーザーは基礎となる理由を調査し、結果を逆転する可能性を探ることに興味を持つことができる。
テストポイント $x_t$ で予測をひっくり返すには、relabel に必要な最小のトレーニングサブセット $\mathcal{s}_t$ をどうやって特定すればよいか?
凸損失を持つ二項分類モデルに対する拡張影響関数を用いて、そのようなサブセットを同定し、レバー化する効率的なアルゴリズムを提案する。
トレーニングポイントの2%未満を許容することは、常に予測を覆すことができる。
このメカニズムは、(1) トレーニングポイントを変更することによってモデル予測に挑戦するアプローチを提供すること、(2) 部分集合の濃度とモデルロバスト性を評価すること(すなわち、$|\mathcal{s}_t|$)、そして、$|\mathcal{s}_t|$ がトレーニングセットのノイズ比と非常に関連していること、および$||\mathcal{s}_t|$ が相関しているが予測確率に相補的であること、(3) グループ帰属バイアスにつながるトレーニングポイントを明らかにすることである。
私たちの知る限りでは、私たちは、与えられた予測を覆すのに必要な最小限のトレーニングサブセットを特定し、緩和することについて、最初に調査します。
関連論文リスト
- Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Self-Directed Linear Classification [50.659479930171585]
オンライン分類では、学習者は、誤りの総数を最小限に抑えるために、オンラインでラベルを予測することを目的としている。
そこで本研究では,予測順序の選択能力について検討し,最低次学習とランダム次学習の分離を初めて確立する。
論文 参考訳(メタデータ) (2023-08-06T15:38:44Z) - How Many and Which Training Points Would Need to be Removed to Flip this
Prediction? [34.9118528281516]
トレーニングデータの最小サブセットを$mathcalS_t$で識別する問題を考える。
トレーニング前に $mathcalS_t$ を含むインスタンスが削除された場合、所定のテストポイント $x_t$ の分類が異なるだろう。
影響関数に基づいて$mathcalS_t$を求めるため,比較的高速な近似法を提案する。
論文 参考訳(メタデータ) (2023-02-04T13:55:12Z) - Memorize to Generalize: on the Necessity of Interpolation in High
Dimensional Linear Regression [6.594338220264161]
機械学習問題における最適な予測リスクを達成するには、トレーニングデータを補間する必要がある。
この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを特徴付ける。
最適な性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。
論文 参考訳(メタデータ) (2022-02-20T18:51:45Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Towards optimally abstaining from prediction [22.937799541125607]
機械学習のあらゆる領域に共通する課題は、トレーニングデータがテストデータのように分散されていないことだ。
一定のコストで予測を控えるモデルを考える。
我々は、Goldwasser、Kalais、Montasser(2020年)の最近の禁断アルゴリズムに基づいて、トランスダクティブバイナリ分類を行った。
論文 参考訳(メタデータ) (2021-05-28T21:44:48Z) - Outlier-robust sparse/low-rank least-squares regression and robust
matrix completion [1.0878040851637998]
ヘテロジニアス雑音を伴う統計的学習フレームワークにおける高次元最小二乗回帰について検討する。
また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレーサリグレス理論を提案する。
論文 参考訳(メタデータ) (2020-12-12T07:42:47Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。