論文の概要: SPEED: Experimental Design for Policy Evaluation in Linear
Heteroscedastic Bandits
- arxiv url: http://arxiv.org/abs/2301.12357v2
- Date: Thu, 25 May 2023 18:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 21:01:31.577430
- Title: SPEED: Experimental Design for Policy Evaluation in Linear
Heteroscedastic Bandits
- Title(参考訳): SPEED:リニア・ヘテロセダスティックバンドの政策評価のための実験的設計
- Authors: Subhojyoti Mukherjee, Qiaomin Xie, Josiah Hanna, Robert Nowak
- Abstract要約: 線形帯域における政策評価のための最適データ収集の問題について検討する。
まず,重み付き最小二乗推定値に対して,重み付き線形帯域設定で最適設計を定式化する。
次に、この定式化を使用して、データ収集中にアクション毎のサンプルの最適な割り当てを導出します。
- 参考スコア(独自算出の注目度): 16.27603064624456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of optimal data collection for policy
evaluation in linear bandits. In policy evaluation, we are given a target
policy and asked to estimate the expected reward it will obtain when executed
in a multi-armed bandit environment. Our work is the first work that focuses on
such optimal data collection strategy for policy evaluation involving
heteroscedastic reward noise in the linear bandit setting. We first formulate
an optimal design for weighted least squares estimates in the heteroscedastic
linear bandit setting that reduces the MSE of the value of the target policy.
We then use this formulation to derive the optimal allocation of samples per
action during data collection. We then introduce a novel algorithm SPEED
(Structured Policy Evaluation Experimental Design) that tracks the optimal
design and derive its regret with respect to the optimal design. Finally, we
empirically validate that SPEED leads to policy evaluation with mean squared
error comparable to the oracle strategy and significantly lower than simply
running the target policy.
- Abstract(参考訳): 本稿では,線形帯域における政策評価のための最適データ収集の問題について検討する。
政策評価において、我々は目標ポリシーを与えられ、多武装バンディット環境で実行した場合に得られる期待報酬を見積もる。
本研究は,線形バンディット設定におけるヘテロシデスティック報酬ノイズを含む政策評価のための最適なデータ収集戦略に焦点を当てた最初の研究である。
まず,重み付き最小二乗推定の最適設計をヘテロシデスティック線形バンディット設定において定式化し,目標政策のmseを減少させる。
次に、この定式化を使用して、データ収集中のアクション毎のサンプルの最適な割り当てを導出します。
次に, 最適設計を追跡し, 最適設計に対する後悔を生じる新しいアルゴリズム速度(構造的ポリシー評価実験設計)を提案する。
最後に、oracleの戦略に匹敵する平均二乗誤差で、ターゲットのポリシーを実行するよりもかなり低い、というポリシー評価のスピードを実証的に検証します。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling [10.925914554822343]
我々は木構造MDPのクラス内で最適なデータ収集の理論を開発する。
我々はReVarがオラクル戦略に匹敵する平均二乗誤差で政策評価につながることを実証的に検証した。
論文 参考訳(メタデータ) (2022-03-09T03:41:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。