論文の概要: Datamodels: Predicting Predictions from Training Data
- arxiv url: http://arxiv.org/abs/2202.00622v1
- Date: Tue, 1 Feb 2022 18:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 13:34:12.486472
- Title: Datamodels: Predicting Predictions from Training Data
- Title(参考訳): データモデル:トレーニングデータから予測予測
- Authors: Andrew Ilyas, Sung Min Park, Logan Engstrom, Guillaume Leclerc,
Aleksander Madry
- Abstract要約: 本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
- 参考スコア(独自算出の注目度): 86.66720175866415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a conceptual framework, datamodeling, for analyzing the behavior
of a model class in terms of the training data. For any fixed "target" example
$x$, training set $S$, and learning algorithm, a datamodel is a parameterized
function $2^S \to \mathbb{R}$ that for any subset of $S' \subset S$ -- using
only information about which examples of $S$ are contained in $S'$ -- predicts
the outcome of training a model on $S'$ and evaluating on $x$. Despite the
potential complexity of the underlying process being approximated (e.g.,
end-to-end training and evaluation of deep neural networks), we show that even
simple linear datamodels can successfully predict model outputs. We then
demonstrate that datamodels give rise to a variety of applications, such as:
accurately predicting the effect of dataset counterfactuals; identifying
brittle predictions; finding semantically similar examples; quantifying
train-test leakage; and embedding data into a well-behaved and feature-rich
representation space. Data for this paper (including pre-computed datamodels as
well as raw predictions from four million trained deep neural networks) is
available at https://github.com/MadryLab/datamodels-data .
- Abstract(参考訳): 本稿では、トレーニングデータの観点からモデルクラスの振る舞いを分析するための概念的フレームワークであるdatamodelingを提案する。
固定された"ターゲット"の例の場合、$x$、トレーニングセット$S$、学習アルゴリズムの場合、データモデルはパラメータ化関数 $2^S \to \mathbb{R}$ であり、$S' \subset S$ の任意のサブセットの場合、$S'$ に含まれる例のどれかの情報のみを使用し、$S'$ のモデルトレーニングの結果を予測し、$x$ で評価する。
基礎となるプロセスの潜在的な複雑さ(例えば、ディープニューラルネットワークのエンドツーエンドのトレーニングと評価)にもかかわらず、単純な線形データモデルでさえモデル出力をうまく予測できることが示される。
次に、データモデルは、データセットの反事実の影響を正確に予測し、脆い予測を識別し、セマンティックに類似した例を見つけ、トレイン・テストのリークを定量化し、データをよく理解され機能豊富な表現空間に埋め込み、様々な応用をもたらすことを実証した。
この論文のデータ(事前計算されたデータモデルと400万の訓練されたディープニューラルネットワークの生の予測を含む)はhttps://github.com/MadryLab/datamodels-dataで公開されている。
関連論文リスト
- Aligning Model Properties via Conformal Risk Control [4.710921988115686]
トレーニング後のアライメントは、人間のフィードバックによって約束されるが、しばしば生成AI設定に限定される。
数値的あるいは分類的な出力を持つ従来の非生成的設定では、単一サンプル出力による誤調整を検出することは依然として困難である。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル $f$ を関数のサブセット $mathcalP$ に属するものとして定義する。
論文 参考訳(メタデータ) (2024-06-26T22:24:46Z) - SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric
Positive Definite Space [47.65912121120524]
本研究では,大規模データを扱う新しい生成モデルであるSPD-DDPMを提案する。
我々のモデルは、$y$を与えることなく、無条件で柔軟に$p(X)$を見積もることができる。
おもちゃのデータと実際のタクシーデータによる実験結果から、我々のモデルは無条件と無条件の両方のデータ分布に効果的に適合することが示された。
論文 参考訳(メタデータ) (2023-12-13T15:08:54Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文 参考訳(メタデータ) (2022-06-20T21:27:18Z) - Supervised Machine Learning with Plausible Deniability [1.685485565763117]
機械学習(ML)モデルが、特定のデータセットでトレーニングされたモデルが、トレーニングデータに対してどの程度のプライバシを提供するか、という問題について検討する。
我々は、純粋にランダムなトレーニングデータの集合を取ることができ、そこから、ちょうど$f$のMLモデルを生成する'適切な学習ルール'を定義することができることを示す。
論文 参考訳(メタデータ) (2021-06-08T11:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。