論文の概要: Statistical Inference for Online Decision-Making: In a Contextual Bandit
Setting
- arxiv url: http://arxiv.org/abs/2010.07283v1
- Date: Wed, 14 Oct 2020 17:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:43:23.003008
- Title: Statistical Inference for Online Decision-Making: In a Contextual Bandit
Setting
- Title(参考訳): オンライン意思決定のための統計的推論:コンテキスト帯域設定において
- Authors: Haoyu Chen, Wenbin Lu, Rui Song
- Abstract要約: オンライン意思決定の問題は、インクリメンタルな情報に基づいた一連の意思決定を必要とする。
一般的な解決策は、文脈情報を与えられた異なるアクションの報酬モデルを学び、それから長期的な報酬を最大化する必要がある。
本稿では,この問題を線形報酬モデルを用いた文脈的帯域幅フレームワークのセットアップの下で検討する。
- 参考スコア(独自算出の注目度): 31.103438051597887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online decision-making problem requires us to make a sequence of decisions
based on incremental information. Common solutions often need to learn a reward
model of different actions given the contextual information and then maximize
the long-term reward. It is meaningful to know if the posited model is
reasonable and how the model performs in the asymptotic sense. We study this
problem under the setup of the contextual bandit framework with a linear reward
model. The $\varepsilon$-greedy policy is adopted to address the classic
exploration-and-exploitation dilemma. Using the martingale central limit
theorem, we show that the online ordinary least squares estimator of model
parameters is asymptotically normal. When the linear model is misspecified, we
propose the online weighted least squares estimator using the inverse
propensity score weighting and also establish its asymptotic normality. Based
on the properties of the parameter estimators, we further show that the
in-sample inverse propensity weighted value estimator is asymptotically normal.
We illustrate our results using simulations and an application to a news
article recommendation dataset from Yahoo!.
- Abstract(参考訳): オンライン意思決定の問題は、インクリメンタル情報に基づいた一連の意思決定を必要とする。
一般的な解決策は、文脈情報を与えられた異なるアクションの報酬モデルを学び、それから長期的な報酬を最大化する。
仮定されたモデルが妥当かどうか、そのモデルが漸近的にどのように機能するかを知ることは有意義である。
本稿では,線形報酬モデルを用いたコンテキストバンディットフレームワークのセットアップにより,この問題を考察する。
古典的な探索と探索のジレンマに対応するために、$\varepsilon$-greedyポリシーが採用されている。
マルティンゲール中心極限定理を用いて、モデルパラメータのオンライン最小二乗推定器が漸近的に正規であることを示す。
線形モデルが誤特定された場合,逆回帰スコア重み付けを用いたオンライン最小二乗推定器を提案し,その漸近正規性を確立する。
さらに,パラメータ推定器の特性に基づいて,サンプル内逆確率重み値推定器が漸近的に正規であることを示す。
シミュレーションと、yahoo!のニュース記事レコメンデーションデータセットへのアプリケーションを用いて、この結果を示す。
関連論文リスト
- Deep Limit Model-free Prediction in Regression [0.0]
本稿では,DNN(Deep Neural Network)に基づくモデルフリーアプローチにより,一般的な回帰条件下での点予測と予測間隔を実現する。
提案手法は,特に最適点予測において,他のDNN法に比べて安定かつ正確である。
論文 参考訳(メタデータ) (2024-08-18T16:37:53Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Online Statistical Inference for Contextual Bandits via Stochastic
Gradient Descent [10.108468796986074]
意思決定の文脈的包括的枠組みにおけるモデルパラメータのオンライン統計的推測について検討する。
本稿では,重み付き勾配勾配による決定規則の更新が可能な,オンラインおよび適応型データ収集環境のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-30T18:57:08Z) - Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method [4.061135251278187]
資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
論文 参考訳(メタデータ) (2022-06-15T06:16:13Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Statistical Inference for Online Decision Making via Stochastic Gradient
Descent [31.103438051597887]
我々は、決定を下し、決定ルールをオンラインで更新するオンラインアルゴリズムを提案する。
効率的だけでなく、あらゆる種類のパラメトリック報酬モデルもサポートしている。
提案アルゴリズムと理論的結果は,ニュース記事レコメンデーションへのシミュレーションおよび実データ応用によって検証される。
論文 参考訳(メタデータ) (2020-10-14T18:25:18Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。