論文の概要: Online Statistical Inference for Contextual Bandits via Stochastic
Gradient Descent
- arxiv url: http://arxiv.org/abs/2212.14883v1
- Date: Fri, 30 Dec 2022 18:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:46:28.093131
- Title: Online Statistical Inference for Contextual Bandits via Stochastic
Gradient Descent
- Title(参考訳): 確率勾配Descenceによる文脈帯域のオンライン統計的推測
- Authors: Xi Chen and Zehua Lai and He Li and Yichen Zhang
- Abstract要約: 意思決定の文脈的包括的枠組みにおけるモデルパラメータのオンライン統計的推測について検討する。
本稿では,重み付き勾配勾配による決定規則の更新が可能な,オンラインおよび適応型データ収集環境のための汎用フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.108468796986074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the fast development of big data, it has been easier than before to
learn the optimal decision rule by updating the decision rule recursively and
making online decisions. We study the online statistical inference of model
parameters in a contextual bandit framework of sequential decision-making. We
propose a general framework for online and adaptive data collection environment
that can update decision rules via weighted stochastic gradient descent. We
allow different weighting schemes of the stochastic gradient and establish the
asymptotic normality of the parameter estimator. Our proposed estimator
significantly improves the asymptotic efficiency over the previous averaged SGD
approach via inverse probability weights. We also conduct an optimality
analysis on the weights in a linear regression setting. We provide a Bahadur
representation of the proposed estimator and show that the remainder term in
the Bahadur representation entails a slower convergence rate compared to
classical SGD due to the adaptive data collection.
- Abstract(参考訳): ビッグデータの急速な発展により、決定ルールを再帰的に更新し、オンライン決定を行うことで、最適な決定ルールを学ぶことがこれまで以上に容易になった。
逐次意思決定の文脈的バンディットフレームワークにおけるモデルパラメータのオンライン統計推定について検討した。
重み付き確率的勾配降下によって決定ルールを更新できるオンラインおよび適応型データ収集環境のための汎用フレームワークを提案する。
確率勾配の異なる重み付けスキームを許容し、パラメータ推定器の漸近正規性を確立する。
提案した推定器は,逆確率重みによる従来の平均SGD手法よりも漸近効率を著しく向上させる。
また,線形回帰設定における重みの最適性解析も行う。
提案した推定器のバハドゥール表現を提供し、バハドゥール表現の残りの項は適応データ収集による古典的なSGDと比較して収束速度が遅いことを示す。
関連論文リスト
- Continuous Optimization for Offline Change Point Detection and Estimation [0.0]
これは、通常の平均多重変化点モデルを、空間性を強制する正規化統計逆問題に再構成する。
最近開発されたベストサブセット選択のための連続最適化フレームワーク(COMBSS)は、近日中に導入され、その問題に関連している。
監督・監督されていない視点は、正規化ペナルティパラメータの選択のための異なるアプローチをテストすることで探索される。
論文 参考訳(メタデータ) (2024-07-03T01:19:59Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Time varying regression with hidden linear dynamics [74.9914602730208]
線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。
反対に、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定と組み合わせることで、データから推定できることが示される。
論文 参考訳(メタデータ) (2021-12-29T23:37:06Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Fast and Robust Online Inference with Stochastic Gradient Descent via
Random Scaling [0.9806910643086042]
本稿では,勾配降下アルゴリズムの平均化法により推定されるパラメータのベクトルに対するオンライン推論法を提案する。
我々のアプローチはオンラインデータで完全に運用されており、機能中心極限定理によって厳格に支えられている。
論文 参考訳(メタデータ) (2021-06-06T15:38:37Z) - Support estimation in high-dimensional heteroscedastic mean regression [2.28438857884398]
ランダムな設計と、潜在的にヘテロセダスティックで重み付きエラーを伴う線形平均回帰モデルを考える。
我々は,問題のパラメータに依存するチューニングパラメータを備えた,厳密な凸・滑らかなHuber損失関数の変種を用いる。
得られた推定器に対して、$ell_infty$ノルムにおける符号一貫性と最適収束率を示す。
論文 参考訳(メタデータ) (2020-11-03T09:46:31Z) - Statistical Inference for Online Decision Making via Stochastic Gradient
Descent [31.103438051597887]
我々は、決定を下し、決定ルールをオンラインで更新するオンラインアルゴリズムを提案する。
効率的だけでなく、あらゆる種類のパラメトリック報酬モデルもサポートしている。
提案アルゴリズムと理論的結果は,ニュース記事レコメンデーションへのシミュレーションおよび実データ応用によって検証される。
論文 参考訳(メタデータ) (2020-10-14T18:25:18Z) - Online Covariance Matrix Estimation in Stochastic Gradient Descent [10.153224593032677]
勾配降下(SGD)は,特に大規模データセットやオンライン学習においてパラメータ推定に広く用いられている。
本稿では,オンライン環境でのSGDに基づく推定値の統計的推測を定量化することを目的とする。
論文 参考訳(メタデータ) (2020-02-10T17:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。