論文の概要: Debiasing Samples from Online Learning Using Bootstrap
- arxiv url: http://arxiv.org/abs/2108.00236v1
- Date: Sat, 31 Jul 2021 13:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 14:55:31.596090
- Title: Debiasing Samples from Online Learning Using Bootstrap
- Title(参考訳): bootstrapを用いたオンライン学習からのサンプル抽出
- Authors: Ningyuan Chen, Xuefeng Gao, Yi Xiong
- Abstract要約: 近年,オンライン学習実験のサンプル平均値が平均報酬を推定する際に偏りがあることが示されている。
本稿では,ブートストラップを用いてサンプルを脱バイアスする手法を提供するが,報奨分布の知識は一切必要としない。
- 参考スコア(独自算出の注目度): 3.5987961950527287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been recently shown in the literature that the sample averages from
online learning experiments are biased when used to estimate the mean reward.
To correct the bias, off-policy evaluation methods, including importance
sampling and doubly robust estimators, typically calculate the propensity
score, which is unavailable in this setting due to unknown reward distribution
and the adaptive policy. This paper provides a procedure to debias the samples
using bootstrap, which doesn't require the knowledge of the reward distribution
at all. Numerical experiments demonstrate the effective bias reduction for
samples generated by popular multi-armed bandit algorithms such as
Explore-Then-Commit (ETC), UCB, Thompson sampling and $\epsilon$-greedy. We
also analyze and provide theoretical justifications for the procedure under the
ETC algorithm, including the asymptotic convergence of the bias decay rate in
the real and bootstrap worlds.
- Abstract(参考訳): 近年,オンライン学習実験のサンプル平均値が平均報酬を推定する際に偏りがあることが文献で示されている。
バイアスを正すために、重要サンプリングや二重ロバストな推定子を含むオフポリシー評価手法は、通常、未知の報酬分布と適応方針のためにこの設定では使用できない確率スコアを計算する。
本稿では,ブートストラップを用いてサンプルを脱バイアスする手法を提供するが,報奨分布の知識は一切必要としない。
数値実験により、Explore-Then-Commit (ETC)、UPB、トンプソンサンプリング、および$\epsilon$-greedyなどの一般的なマルチアームバンディットアルゴリズムによって生成されるサンプルの効果的なバイアス低減が示されている。
また,実世界とブートストラップ世界におけるバイアス崩壊率の漸近収束を含む,ETCアルゴリズムの手順に関する理論的正当性も分析し,提供する。
関連論文リスト
- Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - A Robust Classifier Under Missing-Not-At-Random Sample Selection Bias [15.628927478079913]
統計学において、グリーンの手法は、このタイプのサンプル選択を予測モデルとしてロジスティック回帰を用いて定式化する。
元のトレーニングセットを変更することでグリーンの手法を改善するアルゴリズムであるBiasCorrを提案する。
グリーン法よりもバイアスの偏りを解析し,BiasCorrの改良を理論的に保証する。
論文 参考訳(メタデータ) (2023-05-25T01:39:51Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Learning from a Biased Sample [3.546358664345473]
本稿では,テスト分布のファミリーで発生する最悪のリスクを最小限に抑える決定ルールの学習方法を提案する。
本研究では,健康調査データからメンタルヘルススコアの予測を行うケーススタディにおいて,提案手法を実証的に検証した。
論文 参考訳(メタデータ) (2022-09-05T04:19:16Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。