論文の概要: Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments
- arxiv url: http://arxiv.org/abs/2206.10013v1
- Date: Mon, 20 Jun 2022 21:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:20:21.474314
- Title: Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments
- Title(参考訳): ランダム化実験による深層学習予測におけるトレーニングデータの効果の測定
- Authors: Jinkun Lin, Anqi Zhang, Mathias Lecuyer, Jinyang Li, Aurojit Panda,
Siddhartha Sen
- Abstract要約: 本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
- 参考スコア(独自算出の注目度): 5.625056584412003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a new, principled algorithm for estimating the contribution of
training data points to the behavior of a deep learning model, such as a
specific prediction it makes. Our algorithm estimates the AME, a quantity that
measures the expected (average) marginal effect of adding a data point to a
subset of the training data, sampled from a given distribution. When subsets
are sampled from the uniform distribution, the AME reduces to the well-known
Shapley value. Our approach is inspired by causal inference and randomized
experiments: we sample different subsets of the training data to train multiple
submodels, and evaluate each submodel's behavior. We then use a LASSO
regression to jointly estimate the AME of each data point, based on the subset
compositions. Under sparsity assumptions ($k \ll N$ datapoints have large AME),
our estimator requires only $O(k\log N)$ randomized submodel trainings,
improving upon the best prior Shapley value estimators.
- Abstract(参考訳): 本研究では,学習データポイントがディープラーニングモデルの振る舞いに与える影響を推定する新しい原則付きアルゴリズムを開発した。
このアルゴリズムは、与えられた分布からサンプリングされたトレーニングデータのサブセットにデータポイントを追加することによる期待値(平均値)の限界効果を測定する量であるameを推定する。
均一分布から部分集合がサンプリングされると、AMEはよく知られたShapley値に還元される。
我々は、複数のサブモデルをトレーニングするためにトレーニングデータの異なるサブセットをサンプリングし、各サブモデルの振る舞いを評価する。
次に、LASSO回帰を用いて各データポイントのAMEを、サブセット構成に基づいて共同で推定する。
空間的仮定(k \ll N$ datapoints have large AME)の下では、推定器は$O(k\log N)$ランダム化されたサブモデルトレーニングのみを必要とし、最前のシェープ値推定器を改善する。
関連論文リスト
- Revisiting Score Function Estimators for $k$-Subset Sampling [5.464421236280698]
離散フーリエ変換を用いて,$k$-subset分布のスコア関数を効率的に計算する方法を示す。
得られた推定器は、正確なサンプルと偏りのない勾配推定の両方を提供する。
特徴選択の実験は、仮定が弱いにもかかわらず、現在の手法と競合する結果を示している。
論文 参考訳(メタデータ) (2024-07-22T21:26:39Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Benign-Overfitting in Conditional Average Treatment Effect Prediction
with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。
一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文 参考訳(メタデータ) (2022-02-10T18:51:52Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。