論文の概要: Online Policy Learning and Inference by Matrix Completion
- arxiv url: http://arxiv.org/abs/2404.17398v1
- Date: Fri, 26 Apr 2024 13:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:05:13.697685
- Title: Online Policy Learning and Inference by Matrix Completion
- Title(参考訳): 行列補完によるオンライン政策学習と推論
- Authors: Congyuan Duan, Jingyang Li, Dong Xia,
- Abstract要約: 行列完備帯域(MCB)として問題を定式化する。
我々は、$epsilon$-greedy banditとオンライン勾配降下について検討する。
より早く崩壊する探索は、より少ない後悔をもたらすが、最適なポリシーをより正確に学習する。
- 参考スコア(独自算出の注目度): 12.527541242185404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Making online decisions can be challenging when features are sparse and orthogonal to historical ones, especially when the optimal policy is learned through collaborative filtering. We formulate the problem as a matrix completion bandit (MCB), where the expected reward under each arm is characterized by an unknown low-rank matrix. The $\epsilon$-greedy bandit and the online gradient descent algorithm are explored. Policy learning and regret performance are studied under a specific schedule for exploration probabilities and step sizes. A faster decaying exploration probability yields smaller regret but learns the optimal policy less accurately. We investigate an online debiasing method based on inverse propensity weighting (IPW) and a general framework for online policy inference. The IPW-based estimators are asymptotically normal under mild arm-optimality conditions. Numerical simulations corroborate our theoretical findings. Our methods are applied to the San Francisco parking pricing project data, revealing intriguing discoveries and outperforming the benchmark policy.
- Abstract(参考訳): オンライン意思決定は、特にコラボレーティブなフィルタリングを通じて最適なポリシーが学習された場合に、機能が重要で、歴史的に直交する場合には困難である。
この問題をMCB (Matrix completion bandit) として定式化し, 各アームに期待される報酬は未知の低ランク行列によって特徴づけられる。
$\epsilon$-greedy banditとオンライン勾配降下アルゴリズムについて検討した。
政策学習と後悔のパフォーマンスは、探索確率とステップサイズに関する特定のスケジュールの下で研究される。
より早く崩壊する探索確率は、より小さな後悔をもたらすが、最適なポリシーをより正確に学習する。
Inverse propensity weighting (IPW) に基づくオンラインデバイアス法と、オンラインポリシー推論のための一般的な枠組みについて検討する。
IPWに基づく推定器は、軽度腕の最適条件下で漸近的に正常である。
数値シミュレーションは我々の理論的な結果を裏付ける。
当社の手法はサンフランシスコの駐車料金プロジェクトデータに適用され、興味深い発見とベンチマークポリシーを上回ります。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design [18.326126953667842]
オンラインモンテカルロ推定器のデータ効率を向上させる新しい手法を提案する。
まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。
次に、以前に収集したオフラインデータから、このクローズドフォームの動作ポリシーを学習するための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-31T16:12:31Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Statistical Inference for Online Decision Making via Stochastic Gradient
Descent [31.103438051597887]
我々は、決定を下し、決定ルールをオンラインで更新するオンラインアルゴリズムを提案する。
効率的だけでなく、あらゆる種類のパラメトリック報酬モデルもサポートしている。
提案アルゴリズムと理論的結果は,ニュース記事レコメンデーションへのシミュレーションおよび実データ応用によって検証される。
論文 参考訳(メタデータ) (2020-10-14T18:25:18Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。