論文の概要: Adaptive Data Analysis for Growing Data
- arxiv url: http://arxiv.org/abs/2405.13375v1
- Date: Wed, 22 May 2024 06:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:14:40.766524
- Title: Adaptive Data Analysis for Growing Data
- Title(参考訳): 成長データに対する適応的データ解析
- Authors: Neil G. Marchant, Benjamin I. P. Rubinstein,
- Abstract要約: 適応的なデータの再利用は、過度な適合と統計的妥当性に関する問題を引き起こす。
本稿では、動的データ設定における適応解析のための第一一般化境界について述べる。
- 参考スコア(独自算出の注目度): 19.68686581348877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reuse of data in adaptive workflows poses challenges regarding overfitting and the statistical validity of results. Previous work has demonstrated that interacting with data via differentially private algorithms can mitigate overfitting, achieving worst-case generalization guarantees with asymptotically optimal data requirements. However, such past work assumes data is static and cannot accommodate situations where data grows over time. In this paper we address this gap, presenting the first generalization bounds for adaptive analysis in the dynamic data setting. We allow the analyst to adaptively schedule their queries conditioned on the current size of the data, in addition to previous queries and responses. We also incorporate time-varying empirical accuracy bounds and mechanisms, allowing for tighter guarantees as data accumulates. In a batched query setting, the asymptotic data requirements of our bound grows with the square-root of the number of adaptive queries, matching prior works' improvement over data splitting for the static setting. We instantiate our bound for statistical queries with the clipped Gaussian mechanism, where it empirically outperforms baselines composed from static bounds.
- Abstract(参考訳): 適応ワークフローにおけるデータの再利用は、過度な適合と結果の統計的妥当性に関する課題を引き起こす。
従来の研究は、微分プライベートアルゴリズムによるデータとの相互作用が過度な適合を緩和し、漸近的に最適なデータ要求による最悪の一般化保証を達成することを実証してきた。
しかし、そのような過去の作業は、データが静的であり、時間が経つにつれてデータが成長する状況に適応できないと仮定している。
本稿では、このギャップに対処し、動的データ設定における適応解析のための第1の一般化境界を示す。
我々は、アナリストが、以前のクエリやレスポンスに加えて、現在のデータサイズで条件付きクエリを適応的にスケジュールできるようにします。
また、時間的に異なる経験的精度境界とメカニズムを導入し、データが蓄積されるにつれて、より厳密な保証を可能にします。
バッチクエリ設定では、我々の境界の漸近的なデータ要求は、適応的なクエリの数の二乗根によって増大し、静的設定のためのデータ分割よりも前の作業の改善と一致する。
統計的クエリのバウンダリをクリッピングしたガウス機構でインスタンス化し、静的なバウンダリからなるベースラインを実証的に上回る。
関連論文リスト
- Stochastic Gradient Descent with Adaptive Data [4.119418481809095]
勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。
オペレーションリサーチにおけるポリシー最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。
過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。
適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
論文 参考訳(メタデータ) (2024-10-02T02:58:32Z) - Uncertainty Quantification of Data Shapley via Statistical Inference [20.35973700939768]
データ市場の出現は、データバリュエーションの重要性の高まりを浮き彫りにしている。
機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。
本稿では,データ共有度と無限次U-統計量の関係について述べる。
論文 参考訳(メタデータ) (2024-07-28T02:54:27Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Adaptive Data Analysis with Correlated Observations [21.969356766737622]
いくつかのケースでは、サンプル内に依存関係がある場合でも、差分プライバシーが保証されることが示されています。
転写圧縮と適応データ解析の関連性は,非ID設定にまで拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T14:00:30Z) - Debiasing In-Sample Policy Performance for Small-Data, Large-Scale
Optimization [4.554894288663752]
本稿では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定法を提案する。
クロスバリデーションとは異なり、我々の手法はテストセットのデータを犠牲にするのを避ける。
我々は,小規模・大規模システムにおける推定器の性能を実証する。
論文 参考訳(メタデータ) (2021-07-26T19:00:51Z) - FCMI: Feature Correlation based Missing Data Imputation [0.0]
本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。
分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2021-06-26T13:35:33Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。