論文の概要: Online Statistical Inference for Matrix Contextual Bandit
- arxiv url: http://arxiv.org/abs/2212.11385v1
- Date: Wed, 21 Dec 2022 22:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:18:47.507881
- Title: Online Statistical Inference for Matrix Contextual Bandit
- Title(参考訳): 行列文脈帯域に対するオンライン統計的推測
- Authors: Qiyu Han, Will Wei Sun, and Yichen Zhang
- Abstract要約: 文脈的帯域幅は、文脈情報と歴史的フィードバックデータに基づく逐次的意思決定に広く利用されている。
我々は、両方のバイアス源を同時に扱うために、新しいオンライン二重バイアス推論手法を導入する。
提案手法は, 新たに開発された低ランク勾配勾配推定器とその非漸近収束結果に基づく。
- 参考スコア(独自算出の注目度): 3.465827582464433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit has been widely used for sequential decision-making based
on the current contextual information and historical feedback data. In modern
applications, such context format can be rich and can often be formulated as a
matrix. Moreover, while existing bandit algorithms mainly focused on
reward-maximization, less attention has been paid to the statistical inference.
To fill in these gaps, in this work we consider a matrix contextual bandit
framework where the true model parameter is a low-rank matrix, and propose a
fully online procedure to simultaneously make sequential decision-making and
conduct statistical inference. The low-rank structure of the model parameter
and the adaptivity nature of the data collection process makes this difficult:
standard low-rank estimators are not fully online and are biased, while
existing inference approaches in bandit algorithms fail to account for the
low-rankness and are also biased. To address these, we introduce a new online
doubly-debiasing inference procedure to simultaneously handle both sources of
bias. In theory, we establish the asymptotic normality of the proposed online
doubly-debiased estimator and prove the validity of the constructed confidence
interval. Our inference results are built upon a newly developed low-rank
stochastic gradient descent estimator and its non-asymptotic convergence
result, which is also of independent interest.
- Abstract(参考訳): コンテキストバンディットは、現在の文脈情報と過去のフィードバックデータに基づいて、シーケンシャルな意思決定に広く使われている。
現代のアプリケーションでは、そのようなコンテキストフォーマットはリッチであり、しばしば行列として定式化できる。
さらに、既存のバンディットアルゴリズムは主に報酬最大化に焦点を当てているが、統計的推測には注意が払われていない。
これらのギャップを埋めるため、本研究では、真のモデルパラメータが低ランク行列である行列文脈バンディットフレームワークを検討し、逐次意思決定と統計的推論を同時に行うための完全なオンライン手順を提案する。
モデルパラメータの低ランク構造とデータ収集プロセスの適応性は難しい — 標準的な低ランク推定器は完全なオンラインではなく、偏りがある一方で、既存のバンディットアルゴリズムの推論アプローチでは低ランク性を考慮できず、偏りもある。
そこで本研究では,2つのバイアス源を同時に処理するオンライン二重バイアス推論手法を提案する。
理論上,提案するオンライン二重偏差推定器の漸近正規性を確立し,構築された信頼区間の妥当性を証明する。
我々の推論結果は、新たに開発された低ランク確率勾配降下推定器とその非漸近収束結果に基づいて構築される。
関連論文リスト
- Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Online Tensor Inference [0.0]
従来のオフライン学習は、各計算繰り返しにおける全てのデータの保存と利用を伴い、高次元テンソルデータには実用的ではない。
既存の低ランクテンソル法は、オンラインの方法での統計的推論能力に欠ける。
本手法では,広範囲なメモリ要求を伴わずに効率的なリアルタイムデータ処理を実現するため,グラディエント・Descent (SGD) を用いる。
論文 参考訳(メタデータ) (2023-12-28T16:37:48Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。