論文の概要: Relabel Minimal Training Subset to Flip a Prediction
- arxiv url: http://arxiv.org/abs/2305.12809v1
- Date: Mon, 22 May 2023 08:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:29:28.140209
- Title: Relabel Minimal Training Subset to Flip a Prediction
- Title(参考訳): relabelの最小トレーニングサブセットが予測をひっくり返す
- Authors: Jinghan Yang, Lequan Yu
- Abstract要約: モデルが訓練される前に、トレーニングデータの小さなサブセットを同定し、解放するための効率的な手順を提案する。
私たちの知る限りでは、この研究は、与えられた予測を覆すのに必要な最小限のトレーニングサブセットを特定し、緩和する問題に関する最初の調査である。
- 参考スコア(独自算出の注目度): 20.41991985875725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Yang et al. (2023) discovered that removing a mere 1% of training points can
often lead to the flipping of a prediction. Given the prevalence of noisy data
in machine learning models, we pose the question: can we also result in the
flipping of a test prediction by relabeling a small subset of the training data
before the model is trained? In this paper, utilizing the extended influence
function, we propose an efficient procedure for identifying and relabeling such
a subset, demonstrating consistent success. This mechanism serves multiple
purposes: (1) providing a complementary approach to challenge model predictions
by recovering potentially mislabeled training points; (2) evaluating model
resilience, as our research uncovers a significant relationship between the
subset's size and the ratio of noisy data in the training set; and (3) offering
insights into bias within the training set. To the best of our knowledge, this
work represents the first investigation into the problem of identifying and
relabeling the minimal training subset required to flip a given prediction.
- Abstract(参考訳): Yang et al. (2023) は、たった1%のトレーニングポイントを取り除くことは、しばしば予測の反転につながることを発見している。
機械学習モデルにおけるノイズの多いデータの頻度を考えると、モデルがトレーニングされる前に、トレーニングデータの小さなサブセットを解放することで、テスト予測が反転する結果になるのか?
本稿では,拡張影響関数を利用して,そのような部分集合を同定し,リラベル化するための効率的な手法を提案する。
このメカニズムは,(1)潜在的にラベル付けされていないトレーニングポイントを復元してモデル予測に挑戦するための補完的アプローチの提供,(2)トレーニングセットにおけるサブセットのサイズとノイズデータの比率との有意な関係を明らかにするモデルレジリエンスの評価,(3)トレーニングセット内のバイアスに関する洞察の提供など,複数の目的を果たす。
私たちの知る限りでは、この研究は与えられた予測をひっくり返すのに必要な最小のトレーニングサブセットを識別し、リラベルする問題に対する最初の調査です。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Self-Directed Linear Classification [50.659479930171585]
オンライン分類では、学習者は、誤りの総数を最小限に抑えるために、オンラインでラベルを予測することを目的としている。
そこで本研究では,予測順序の選択能力について検討し,最低次学習とランダム次学習の分離を初めて確立する。
論文 参考訳(メタデータ) (2023-08-06T15:38:44Z) - How Many and Which Training Points Would Need to be Removed to Flip this
Prediction? [34.9118528281516]
トレーニングデータの最小サブセットを$mathcalS_t$で識別する問題を考える。
トレーニング前に $mathcalS_t$ を含むインスタンスが削除された場合、所定のテストポイント $x_t$ の分類が異なるだろう。
影響関数に基づいて$mathcalS_t$を求めるため,比較的高速な近似法を提案する。
論文 参考訳(メタデータ) (2023-02-04T13:55:12Z) - Memorize to Generalize: on the Necessity of Interpolation in High
Dimensional Linear Regression [6.594338220264161]
機械学習問題における最適な予測リスクを達成するには、トレーニングデータを補間する必要がある。
この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを特徴付ける。
最適な性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。
論文 参考訳(メタデータ) (2022-02-20T18:51:45Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Towards optimally abstaining from prediction [22.937799541125607]
機械学習のあらゆる領域に共通する課題は、トレーニングデータがテストデータのように分散されていないことだ。
一定のコストで予測を控えるモデルを考える。
我々は、Goldwasser、Kalais、Montasser(2020年)の最近の禁断アルゴリズムに基づいて、トランスダクティブバイナリ分類を行った。
論文 参考訳(メタデータ) (2021-05-28T21:44:48Z) - Outlier-robust sparse/low-rank least-squares regression and robust
matrix completion [1.0878040851637998]
ヘテロジニアス雑音を伴う統計的学習フレームワークにおける高次元最小二乗回帰について検討する。
また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレーサリグレス理論を提案する。
論文 参考訳(メタデータ) (2020-12-12T07:42:47Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。