論文の概要: Generalization in the Face of Adaptivity: A Bayesian Perspective
- arxiv url: http://arxiv.org/abs/2106.10761v3
- Date: Wed, 3 Apr 2024 19:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 21:01:43.253719
- Title: Generalization in the Face of Adaptivity: A Bayesian Perspective
- Title(参考訳): 適応性に直面する一般化 : ベイズ的視点
- Authors: Moshe Shenfeld, Katrina Ligett,
- Abstract要約: 適応的に選択されたクエリによるデータサンプルの繰り返し使用は、急速に過度な適合につながる可能性がある。
単純なノイズアンバウンド付加アルゴリズムは、この問題を防ぐのに十分であることがわかった。
提案手法では, 過去のクエリに対する応答にデータサンプルに関する情報がどの程度エンコードされたか, ベイズ因子と新しいクエリの共分散から適応性の害が生じることを示す。
- 参考スコア(独自算出の注目度): 3.0202264016476623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repeated use of a data sample via adaptively chosen queries can rapidly lead to overfitting, wherein the empirical evaluation of queries on the sample significantly deviates from their mean with respect to the underlying data distribution. It turns out that simple noise addition algorithms suffice to prevent this issue, and differential privacy-based analysis of these algorithms shows that they can handle an asymptotically optimal number of queries. However, differential privacy's worst-case nature entails scaling such noise to the range of the queries even for highly-concentrated queries, or introducing more complex algorithms. In this paper, we prove that straightforward noise-addition algorithms already provide variance-dependent guarantees that also extend to unbounded queries. This improvement stems from a novel characterization that illuminates the core problem of adaptive data analysis. We show that the harm of adaptivity results from the covariance between the new query and a Bayes factor-based measure of how much information about the data sample was encoded in the responses given to past queries. We then leverage this characterization to introduce a new data-dependent stability notion that can bound this covariance.
- Abstract(参考訳): 適応的に選択されたクエリによるデータサンプルの繰り返し使用は、過度な適合につながる可能性があるため、サンプル上のクエリの実証的な評価は、基礎となるデータ分布に関して、その平均値から著しく逸脱する。
単純なノイズ付加アルゴリズムはこの問題を防ぐのに十分であり、これらのアルゴリズムの差分プライバシーに基づく分析は、漸近的に最適なクエリ数を扱うことができることを示している。
しかし、差分プライバシーの最悪の性質は、高濃度のクエリやより複雑なアルゴリズムを導入しても、そのようなノイズをクエリの範囲にスケーリングすることを必要とする。
本稿では,非有界クエリにも拡張可能な分散依存性保証を,ノイズ付加アルゴリズムですでに実現していることを示す。
この改善は、適応データ分析のコア問題に照らしている新しい特徴に起因している。
提案手法は,過去のクエリに対する応答において,データサンプルに関する情報がどの程度エンコードされたかを示すベイズ因子との新しいクエリの共分散から,適応性の害が生じることを示す。
次に、この特徴を利用して、この共分散を束縛できる新しいデータ依存の安定性の概念を導入する。
関連論文リスト
- pEBR: A Probabilistic Approach to Embedding Based Retrieval [4.8338111302871525]
埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Non-Stochastic CDF Estimation Using Threshold Queries [3.6576781735746513]
実験的な分布を2つの課題で推定する問題に取り組む。
まず、アルゴリズムはデータを直接観察するのではなく、サンプルについて限られた数のしきい値クエリしか要求しない。
第二に、データは独立で同一の分散であると仮定されず、代わりにサンプルを生成する任意のプロセスが可能である。
論文 参考訳(メタデータ) (2023-01-13T18:00:57Z) - Conformal Frequency Estimation using Discrete Sketched Data with
Coverage for Distinct Queries [35.67445122503686]
本稿では、非常に大きな離散データセットにおいて、問合せ対象の周波数に対する信頼区間を構築するための共形推論手法を開発する。
提案手法は,シミュレーションにおける既存の頻繁主義者やベイズ的な代替手法と比較して,経験的性能が向上したことを示す。
論文 参考訳(メタデータ) (2022-11-09T00:05:29Z) - Partial Identification with Noisy Covariates: A Robust Optimization
Approach [94.10051154390237]
観測データセットからの因果推論は、しばしば共変量の測定と調整に依存する。
このロバストな最適化手法により、広範囲な因果調整法を拡張し、部分的同定を行うことができることを示す。
合成および実データセット全体で、このアプローチは既存の手法よりも高いカバレッジ確率でATEバウンダリを提供する。
論文 参考訳(メタデータ) (2022-02-22T04:24:26Z) - Differentially Private Query Release Through Adaptive Projection [19.449593001368193]
我々は,$k$-way マージンのような膨大な統計クエリに対する回答を解放するための新しいアルゴリズムを提案し,実装し,評価する。
我々のアルゴリズムは、単純な摂動を用いて、プライベートデータセット上のクエリに応答するプロジェクションメカニズムの連続緩和を適応的に利用する。
特に,プライバシ予算が小さい場合や,クエリクラスが大きい場合など,既存のアルゴリズムよりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-03-11T12:43:18Z) - Oblivious Data for Fairness with Kernels [1.599072005190786]
感度・非感度特性が利用できる場合のアルゴリズムフェアネスの問題について検討する。
このような不愉快な特徴を生成するための重要な要素は、ヒルベルト空間評価条件予測である。
本稿では,プラグインアプローチを提案し,推定誤差の制御方法を示す。
論文 参考訳(メタデータ) (2020-02-07T16:59:24Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。