論文の概要: Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning
- arxiv url: http://arxiv.org/abs/2106.01723v1
- Date: Thu, 3 Jun 2021 09:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:24:16.200972
- Title: Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning
- Title(参考訳): 適応収集データからのリスク最小化:監視と政策学習のための保証
- Authors: Aur\'elien Bibaut and Antoine Chambaz and Maria Dimakopoulou and
Nathan Kallus and Mark van der Laan
- Abstract要約: 経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
- 参考スコア(独自算出の注目度): 57.88785630755165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical risk minimization (ERM) is the workhorse of machine learning,
whether for classification and regression or for off-policy policy learning,
but its model-agnostic guarantees can fail when we use adaptively collected
data, such as the result of running a contextual bandit algorithm. We study a
generic importance sampling weighted ERM algorithm for using adaptively
collected data to minimize the average of a loss function over a hypothesis
class and provide first-of-their-kind generalization guarantees and fast
convergence rates. Our results are based on a new maximal inequality that
carefully leverages the importance sampling structure to obtain rates with the
right dependence on the exploration rate in the data. For regression, we
provide fast rates that leverage the strong convexity of squared-error loss.
For policy learning, we provide rate-optimal regret guarantees that close an
open gap in the existing literature whenever exploration decays to zero, as is
the case for bandit-collected data. An empirical investigation validates our
theory.
- Abstract(参考訳): 経験的リスク最小化(英語: Empirical Risk Minimization, ERM)は、分類と回帰、あるいは非政治政策学習のいずれにおいても機械学習のワークホースであるが、文脈的バンディットアルゴリズムの実行など、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均を最小化するために,適応的に収集したデータを用いた一般重要サンプリング重み付きEMMアルゴリズムについて検討した。
本研究の結果は, 重要サンプリング構造を慎重に利用し, データの探索速度に適切に依存したレートを得ることのできる, 新たな最大不等式に基づくものである。
回帰では、二乗誤差損失の強い凸性を利用する高速レートを提供する。
政策学習においては,バンドイット収集データの場合と同様に,探索がゼロになるたびに既存の文献の空隙を塞ぐようなレート・オプティマイズ保証を提供する。
実証的な調査が我々の理論を検証する。
関連論文リスト
- A Bayesian Robust Regression Method for Corrupted Data Reconstruction [5.298637115178182]
我々は適応的敵攻撃に抵抗できる効果的なロバスト回帰法を開発した。
まず TRIP (hard Thresholding approach to Robust regression with sImple Prior) アルゴリズムを提案する。
次に、より堅牢なBRHT (robust Bayesian Reweighting regression via Hard Thresholding) アルゴリズムを構築するためにベイズ再重み付け(Bayesian reweighting)というアイデアを用いる。
論文 参考訳(メタデータ) (2022-12-24T17:25:53Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - SCORE: Spurious COrrelation REduction for Offline Reinforcement Learning [100.78715211319016]
オフライン強化学習は、オンラインインタラクションなしで、事前に収集されたデータセットから最適なポリシーを学ぶことを目的としている。
データセットは基礎となるモデルに関する限られた情報しか含まないため、オフラインRLは急激な相関に弱い。
本稿では,不確実なペナルティを政策評価に組み込むことにより,突発的な相関を低減できる実用的で理論的に保証されたアルゴリズムSCOREを提案する。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - RIFLE: Robust Inference from Low Order Marginals [12.82736265401703]
我々は,不足した値を示唆することなく,対象変数を予測する統計的推論フレームワークを開発した。
我々のフレームワークであるRIFLEは、分布的に堅牢なモデルを学ぶために、対応する信頼区間を持つ低次モーメントを推定する。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - RATT: Leveraging Unlabeled Data to Guarantee Generalization [96.08979093738024]
ラベルのないデータを利用して一般化境界を生成する手法を紹介します。
境界が0-1経験的リスク最小化に有効であることを証明します。
この作業は、見えないラベル付きデータが利用できない場合でも、ディープネットの一般化を証明するためのオプションを実践者に提供します。
論文 参考訳(メタデータ) (2021-05-01T17:05:29Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - Active Deep Learning on Entity Resolution by Risk Sampling [5.219701379581547]
アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。
実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。
ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
実データに対する提案手法の有効性を比較検討により実証的に検証した。
論文 参考訳(メタデータ) (2020-12-23T20:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。