論文の概要: Sayer: Using Implicit Feedback to Optimize System Policies
- arxiv url: http://arxiv.org/abs/2110.14874v1
- Date: Thu, 28 Oct 2021 04:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:16:48.283960
- Title: Sayer: Using Implicit Feedback to Optimize System Policies
- Title(参考訳): Sayer氏: インシシットフィードバックを使ってシステムポリシーを最適化する
- Authors: Mathias L\'ecuyer, Sang Hoon Kim, Mihir Nanavati, Junchen Jiang,
Siddhartha Sen, Amit Sharma, Aleksandrs Slivkins
- Abstract要約: 我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
- 参考スコア(独自算出の注目度): 63.992191765269396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We observe that many system policies that make threshold decisions involving
a resource (e.g., time, memory, cores) naturally reveal additional, or implicit
feedback. For example, if a system waits X min for an event to occur, then it
automatically learns what would have happened if it waited <X min, because time
has a cumulative property. This feedback tells us about alternative decisions,
and can be used to improve the system policy. However, leveraging implicit
feedback is difficult because it tends to be one-sided or incomplete, and may
depend on the outcome of the event. As a result, existing practices for using
feedback, such as simply incorporating it into a data-driven model, suffer from
bias.
We develop a methodology, called Sayer, that leverages implicit feedback to
evaluate and train new system policies. Sayer builds on two ideas from
reinforcement learning -- randomized exploration and unbiased counterfactual
estimators -- to leverage data collected by an existing policy to estimate the
performance of new candidate policies, without actually deploying those
policies. Sayer uses implicit exploration and implicit data augmentation to
generate implicit feedback in an unbiased form, which is then used by an
implicit counterfactual estimator to evaluate and train new policies. The key
idea underlying these techniques is to assign implicit probabilities to
decisions that are not actually taken but whose feedback can be inferred; these
probabilities are carefully calculated to ensure statistical unbiasedness. We
apply Sayer to two production scenarios in Azure, and show that it can evaluate
arbitrary policies accurately, and train new policies that outperform the
production policies.
- Abstract(参考訳): リソース(例えば、時間、メモリ、コア)を含むしきい値を決定する多くのシステムポリシーは、自然に追加的あるいは暗黙的なフィードバックを明らかにします。
例えば、システムがイベントが発生するのをX分待つと、時間が累積特性を持つため、<X分>を待っていれば何が起こったかを自動的に学習する。
このフィードバックは代替決定について教えてくれるし、システムポリシーを改善するのに使うことができる。
しかしながら、暗黙のフィードバックを活用することは、片側あるいは不完全な傾向があり、イベントの結果に依存するため、難しい。
結果として、単にデータ駆動モデルに組み込むような、フィードバックを使用する既存のプラクティスは、バイアスに悩まされます。
我々は、暗黙のフィードバックを利用して新しいシステムポリシーを評価し訓練する、Sayerと呼ばれる方法論を開発した。
Sayer氏は、強化学習(ランダム化探索と非バイアスの反事実推定)の2つのアイデアに基づいて、既存のポリシーによって収集されたデータを活用して、これらのポリシーを実際にデプロイすることなく、新しいポリシーのパフォーマンスを見積もる。
Sayer氏は、暗黙的な探索と暗黙的なデータ拡張を使用して、偏見のない形式で暗黙的なフィードバックを生成する。
これらの手法の根底にある重要な考え方は、実際に取られていないがフィードバックが推測できる決定に暗黙の確率を割り当てることである。
我々はsayerをazureの2つのプロダクションシナリオに適用し、任意のポリシーを正確に評価できることを示し、プロダクションポリシーを上回る新しいポリシーをトレーニングします。
関連論文リスト
- Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior
Policies [3.855085732184416]
オフ政治評価は、行動ポリシーから収集されたオフラインデータを用いて目標ポリシーを評価する強化学習の鍵となる要素である。
本稿では,異なる行動ポリシーによって生成された推定器を正しく混合する方法について論じる。
シミュレーションリコメンデータシステムの実験から,提案手法は推定平均二乗誤差を低減するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-11-29T12:57:54Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。