論文の概要: Meta-Learning Bandit Policies by Gradient Ascent
- arxiv url: http://arxiv.org/abs/2006.05094v2
- Date: Wed, 6 Jan 2021 03:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:42:03.696982
- Title: Meta-Learning Bandit Policies by Gradient Ascent
- Title(参考訳): 勾配上昇によるメタラーニングバンディット政策
- Authors: Branislav Kveton, Martin Mladenov, Chih-Wei Hsu, Manzil Zaheer, Csaba
Szepesvari, and Craig Boutilier
- Abstract要約: バンディットポリシーは、環境パラメータの事前分布を仮定して、あらゆる問題の場合やベイズ的な意味での後悔を最小限に抑えるように設計されている。
本稿では,この2つの極端の間に生じる帯域幅の問題について検討する。
本稿では,パラメータ化バンディットポリシーの利用法を提案する。
- 参考スコア(独自算出の注目度): 38.817374110000735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most bandit policies are designed to either minimize regret in any problem
instance, making very few assumptions about the underlying environment, or in a
Bayesian sense, assuming a prior distribution over environment parameters. The
former are often too conservative in practical settings, while the latter
require assumptions that are hard to verify in practice. We study bandit
problems that fall between these two extremes, where the learning agent has
access to sampled bandit instances from an unknown prior distribution
$\mathcal{P}$ and aims to achieve high reward on average over the bandit
instances drawn from $\mathcal{P}$. This setting is of a particular importance
because it lays foundations for meta-learning of bandit policies and reflects
more realistic assumptions in many practical domains. We propose the use of
parameterized bandit policies that are differentiable and can be optimized
using policy gradients. This provides a broadly applicable framework that is
easy to implement. We derive reward gradients that reflect the structure of
bandit problems and policies, for both non-contextual and contextual settings,
and propose a number of interesting policies that are both differentiable and
have low regret. Our algorithmic and theoretical contributions are supported by
extensive experiments that show the importance of baseline subtraction, learned
biases, and the practicality of our approach on a range problems.
- Abstract(参考訳): ほとんどのバンディットポリシーは、どんな問題でも後悔を最小限に抑えるように設計されており、基礎となる環境やベイズ的な意味では、環境パラメータの事前分布を仮定して、ほとんど仮定しない。
前者は実践的な環境では保守的すぎることが多いが、後者は実際に検証するのが難しい仮定を必要とする。
学習エージェントは、未知の事前分布である$\mathcal{p}$ からサンプル化されたbanditインスタンスにアクセスでき、$\mathcal{p}$ から引き出されたbanditインスタンスに対して平均で高い報酬を得ることを目指している。
この設定は、バンディット政策のメタラーニングの基礎を築き、多くの実践領域においてより現実的な仮定を反映しているため、特に重要である。
本稿では,識別可能で,ポリシー勾配を用いて最適化できるパラメータ化されたbanditポリシーの利用を提案する。
これは実装が容易な広く適用可能なフレームワークを提供する。
我々は,非文脈的・文脈的設定の両面において,包括的問題や政策の構造を反映した報酬勾配を導出し,識別可能かつ後悔の少ない多くの興味深い政策を提案する。
我々のアルゴリズム的および理論的貢献は、ベースライン減算の重要性、学習バイアス、および範囲問題に対する我々のアプローチの実践性を示す広範な実験によって支えられている。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - Risk and optimal policies in bandit experiments [0.0]
本稿では,バンディット実験の意思決定理論解析について述べる。
バンディット設定は動的プログラミング問題に対応するが、これを直接解くことは一般的に不可能である。
通常分散報酬の場合、最小ベイズリスクは非線形二階偏微分方程式の解として特徴づけられる。
論文 参考訳(メタデータ) (2021-12-13T00:41:19Z) - Differentiable Bandit Exploration [38.81737411000074]
我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
論文 参考訳(メタデータ) (2020-02-17T05:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。