Fugu-MT 論文翻訳(概要): Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning

論文の概要: Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning

arxiv url: http://arxiv.org/abs/2106.01723v1
Date: Thu, 3 Jun 2021 09:50:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-04 16:24:16.200972
Title: Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning
Title（参考訳）: 適応収集データからのリスク最小化:監視と政策学習のための保証
Authors: Aur\'elien Bibaut and Antoine Chambaz and Maria Dimakopoulou and Nathan Kallus and Mark van der Laan
Abstract要約: 経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
参考スコア（独自算出の注目度）: 57.88785630755165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Empirical risk minimization (ERM) is the workhorse of machine learning, whether for classification and regression or for off-policy policy learning, but its model-agnostic guarantees can fail when we use adaptively collected data, such as the result of running a contextual bandit algorithm. We study a generic importance sampling weighted ERM algorithm for using adaptively collected data to minimize the average of a loss function over a hypothesis class and provide first-of-their-kind generalization guarantees and fast convergence rates. Our results are based on a new maximal inequality that carefully leverages the importance sampling structure to obtain rates with the right dependence on the exploration rate in the data. For regression, we provide fast rates that leverage the strong convexity of squared-error loss. For policy learning, we provide rate-optimal regret guarantees that close an open gap in the existing literature whenever exploration decays to zero, as is the case for bandit-collected data. An empirical investigation validates our theory.
Abstract（参考訳）: 経験的リスク最小化(英語: Empirical Risk Minimization, ERM)は、分類と回帰、あるいは非政治政策学習のいずれにおいても機械学習のワークホースであるが、文脈的バンディットアルゴリズムの実行など、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。本研究では,仮説クラス上での損失関数の平均を最小化するために,適応的に収集したデータを用いた一般重要サンプリング重み付きEMMアルゴリズムについて検討した。本研究の結果は, 重要サンプリング構造を慎重に利用し, データの探索速度に適切に依存したレートを得ることのできる, 新たな最大不等式に基づくものである。回帰では、二乗誤差損失の強い凸性を利用する高速レートを提供する。政策学習においては,バンドイット収集データの場合と同様に,探索がゼロになるたびに既存の文献の空隙を塞ぐようなレート・オプティマイズ保証を提供する。実証的な調査が我々の理論を検証する。

関連論文リスト

Online Policy Learning via a Self-Normalized Maximal Inequality [4.906641452356241]
マルティンゲール経験過程における自己正規化最大不等式を開発した。逐次更新と標準複雑性とマージン条件で組み合わせると、推定器は高速収束率が得られることを示す。
論文参考訳（メタデータ） (2025-10-17T09:53:42Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文参考訳（メタデータ） (2024-04-08T14:55:35Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
A Generalized Unbiased Risk Estimator for Learning with Augmented Classes [70.20752731393938]
ラベルなしのデータが与えられた場合、非バイアスリスク推定器(URE)が導出され、理論的保証のあるLACでは最小限にすることができる。理論的な保証を維持しつつ任意の損失関数を装備できる一般化されたUREを提案する。
論文参考訳（メタデータ） (2023-06-12T06:52:04Z)
Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。 PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文参考訳（メタデータ） (2022-01-26T19:59:14Z)
RATT: Leveraging Unlabeled Data to Guarantee Generalization [96.08979093738024]
ラベルのないデータを利用して一般化境界を生成する手法を紹介します。境界が0-1経験的リスク最小化に有効であることを証明します。この作業は、見えないラベル付きデータが利用できない場合でも、ディープネットの一般化を証明するためのオプションを実践者に提供します。
論文参考訳（メタデータ） (2021-05-01T17:05:29Z)
Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。 ASVspoof 2019データセットで実験が行われる。
論文参考訳（メタデータ） (2021-04-15T07:57:05Z)
Minimax Estimation for Personalized Federated Learning: An Alternative between FedAvg and Local Training? [31.831856922814502]
局所的なデータセットは、しばしば異なるが全く関係のない確率分布に由来する。本稿では,パーソナライズド・フェデレーション・ラーニングの過大なリスクが,ミニマックスの観点からのデータ不均一性にどのように依存しているかを示す。
論文参考訳（メタデータ） (2021-03-02T17:58:20Z)
Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文参考訳（メタデータ） (2021-02-13T07:31:16Z)
Active Deep Learning on Entity Resolution by Risk Sampling [5.219701379581547]
アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。 ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。実データに対する提案手法の有効性を比較検討により実証的に検証した。
論文参考訳（メタデータ） (2020-12-23T20:38:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。