論文の概要: Subsampling Suffices for Adaptive Data Analysis
- arxiv url: http://arxiv.org/abs/2302.08661v1
- Date: Fri, 17 Feb 2023 02:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:06:37.994249
- Title: Subsampling Suffices for Adaptive Data Analysis
- Title(参考訳): 適応データ解析のためのサブサンプリング
- Authors: Guy Blanc
- Abstract要約: ほとんどの古典的なテクニックは、データセットがアナリストのクエリとは独立していると仮定し、データセットが複数の適応的に選択されたクエリのために再利用される一般的な設定に分解する。
クエリが適応的に選択された場合でも、クエリが引き続き表現されるという、非常に単純な仮定のセットを特定します。
このサブサンプルベースのフレームワークの単純さにより、以前の作業でカバーされていないさまざまな現実世界のシナリオをモデル化することができる。
- 参考スコア(独自算出の注目度): 7.310043452300736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that analyses performed on a dataset are representative of the
entire population is one of the central problems in statistics. Most classical
techniques assume that the dataset is independent of the analyst's query and
break down in the common setting where a dataset is reused for multiple,
adaptively chosen, queries. This problem of \emph{adaptive data analysis} was
formalized in the seminal works of Dwork et al. (STOC, 2015) and Hardt and
Ullman (FOCS, 2014).
We identify a remarkably simple set of assumptions under which the queries
will continue to be representative even when chosen adaptively: The only
requirements are that each query takes as input a random subsample and outputs
few bits. This result shows that the noise inherent in subsampling is
sufficient to guarantee that query responses generalize. The simplicity of this
subsampling-based framework allows it to model a variety of real-world
scenarios not covered by prior work.
In addition to its simplicity, we demonstrate the utility of this framework
by designing mechanisms for two foundational tasks, statistical queries and
median finding. In particular, our mechanism for answering the broadly
applicable class of statistical queries is both extremely simple and state of
the art in many parameter regimes.
- Abstract(参考訳): データセットで行った分析が全人口を代表することを保証することは、統計学における中心的な問題の一つである。
ほとんどの古典的手法では、データセットはアナリストのクエリとは独立であると仮定し、複数の選択されたクエリのためにデータセットを再利用する共通設定で分解する。
このemph{adaptive data analysis} の問題は、Dwork et al. (STOC, 2015) と Hardt and Ullman (FOCS, 2014) のセミナーで定式化された。
クエリが適応的に選択された場合でも、クエリが代表され続けるという、驚くほど単純な仮定のセットを識別する。
この結果は,サブサンプリングに固有のノイズがクエリ応答の一般化を保証するのに十分であることを示している。
このサブサンプルベースのフレームワークの単純さにより、以前の作業でカバーされていないさまざまな現実世界のシナリオをモデル化することができる。
その単純さに加えて、統計的クエリと中央値探索という2つの基本的なタスクのメカニズムを設計することで、このフレームワークの有用性を実証する。
特に、広く適用可能な統計クエリのクラスに答えるメカニズムは、多くのパラメータレジームにおいて非常に単純かつ最先端のものである。
関連論文リスト
- Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Adaptive Data Analysis in a Balanced Adversarial Model [26.58630744414181]
適応データ解析において、メカニズムは未知の分布から$n$、すなわち$D$のサンプルを取得し、正確な推定を行う必要がある。
我々は、それぞれが2つの分離されたアルゴリズムから構成されるアンフバランスドと呼ばれる、より制限された敵を考える。
これらの強い硬さの仮定は、計算的に有界なアンフバランス逆元が公開鍵暗号の存在を示唆するという意味では避けられないことを示す。
論文 参考訳(メタデータ) (2023-05-24T15:08:05Z) - MQAG: Multiple-choice Question Answering and Generation for Assessing
Information Consistency in Summarization [55.60306377044225]
最先端の要約システムは高度に流動的な要約を生成することができる。
しかし、これらの要約には、情報源に存在しない事実上の矛盾や情報が含まれている可能性がある。
本稿では,ソース情報と要約情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T23:08:25Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Generalization in the Face of Adaptivity: A Bayesian Perspective [3.0202264016476623]
適応的に選択されたクエリによるデータサンプルの繰り返し使用は、急速に過度な適合につながる可能性がある。
単純なノイズアンバウンド付加アルゴリズムは、この問題を防ぐのに十分であることがわかった。
提案手法では, 過去のクエリに対する応答にデータサンプルに関する情報がどの程度エンコードされたか, ベイズ因子と新しいクエリの共分散から適応性の害が生じることを示す。
論文 参考訳(メタデータ) (2021-06-20T22:06:44Z) - Approximate Query Processing for Group-By Queries based on Conditional
Generative Models [3.9837198605506963]
グループバイクエリには複数の値が含まれるため、すべてのグループに対して十分な正確な推定を行うのは難しい。
階層化サンプリングは、一様サンプリングに比べて精度が向上するが、特定のクエリで選択されたサンプルは他のクエリでは動作しない。
オンラインサンプリングは、クエリ時に与えられたクエリのサンプルを選択するが、長いレイテンシを必要とする。
提案フレームワークは階層化サンプリングとオンラインアグリゲーションを組み合わせることで,グループバイクエリの推定精度を向上させることができる。
論文 参考訳(メタデータ) (2021-01-08T08:49:21Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。