論文の概要: Differentiable Bandit Exploration
- arxiv url: http://arxiv.org/abs/2002.06772v2
- Date: Tue, 9 Jun 2020 07:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 11:59:19.072557
- Title: Differentiable Bandit Exploration
- Title(参考訳): 差別化可能なバンディット探索
- Authors: Craig Boutilier, Chih-Wei Hsu, Branislav Kveton, Martin Mladenov,
Csaba Szepesvari, and Manzil Zaheer
- Abstract要約: 我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
- 参考スコア(独自算出の注目度): 38.81737411000074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration policies in Bayesian bandits maximize the average reward over
problem instances drawn from some distribution $\mathcal{P}$. In this work, we
learn such policies for an unknown distribution $\mathcal{P}$ using samples
from $\mathcal{P}$. Our approach is a form of meta-learning and exploits
properties of $\mathcal{P}$ without making strong assumptions about its form.
To do this, we parameterize our policies in a differentiable way and optimize
them by policy gradients, an approach that is general and easy to implement. We
derive effective gradient estimators and introduce novel variance reduction
techniques. We also analyze and experiment with various bandit policy classes,
including neural networks and a novel softmax policy. The latter has regret
guarantees and is a natural starting point for our optimization. Our
experiments show the versatility of our approach. We also observe that neural
network policies can learn implicit biases expressed only through the sampled
instances.
- Abstract(参考訳): ベイズ帯域における探索ポリシーは、ある分布$\mathcal{P}$から引き出された問題インスタンスに対する平均報酬を最大化する。
本研究では,$\mathcal{p}$ のサンプルを用いて,未知分布 $\mathcal{p}$ に対するそのようなポリシーを学習する。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$\mathcal{P}$のプロパティを利用する。
これを実現するために、我々はポリシーを微分可能な方法でパラメータ化し、ポリシー勾配によってそれらを最適化する。
有効勾配推定器を導出し,新しい分散低減手法を導入する。
また、ニューラルネットワークや新しいソフトマックスポリシーなど、さまざまなバンドイットポリシークラスを分析し、実験する。
後者は後悔の保証があり、最適化の自然な出発点です。
我々の実験は我々のアプローチの汎用性を示している。
また、ニューラルネットワークポリシーは、サンプルインスタンスを通してのみ表現される暗黙のバイアスを学習することができる。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Inverse Reinforcement Learning with the Average Reward Criterion [3.719493310637464]
本稿では, 逆強化学習(IRL)の問題点を, 平均回帰基準を用いて検討する。
目的は、エージェントが経験豊富なエージェントから状態とアクションのサンプルしか持たない場合、未知のポリシーと報酬関数を回復することである。
論文 参考訳(メタデータ) (2023-05-24T01:12:08Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Meta-Learning Bandit Policies by Gradient Ascent [38.817374110000735]
バンディットポリシーは、環境パラメータの事前分布を仮定して、あらゆる問題の場合やベイズ的な意味での後悔を最小限に抑えるように設計されている。
本稿では,この2つの極端の間に生じる帯域幅の問題について検討する。
本稿では,パラメータ化バンディットポリシーの利用法を提案する。
論文 参考訳(メタデータ) (2020-06-09T07:45:41Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。