論文の概要: BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings
- arxiv url: http://arxiv.org/abs/2412.00308v1
- Date: Sat, 30 Nov 2024 01:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:36.204506
- Title: BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings
- Title(参考訳): BOTS: エピソード限定RL設定のための拡張トンプソンサンプリングのバッチベイズ最適化
- Authors: Karine Karine, Susan A. Murphy, Benjamin M. Marlin,
- Abstract要約: 線形トンプソンサンプリングバンドイットを状態作用ユーティリティ関数に基づいた選択動作に拡張する。
提案手法は, トータルリターンの観点から, 標準トンプソンサンプリングを著しく上回り得ることを示す。
- 参考スコア(独自算出の注目度): 11.008537121214104
- License:
- Abstract: In settings where the application of reinforcement learning (RL) requires running real-world trials, including the optimization of adaptive health interventions, the number of episodes available for learning can be severely limited due to cost or time constraints. In this setting, the bias-variance trade-off of contextual bandit methods can be significantly better than that of more complex full RL methods. However, Thompson sampling bandits are limited to selecting actions based on distributions of immediate rewards. In this paper, we extend the linear Thompson sampling bandit to select actions based on a state-action utility function consisting of the Thompson sampler's estimate of the expected immediate reward combined with an action bias term. We use batch Bayesian optimization over episodes to learn the action bias terms with the goal of maximizing the expected return of the extended Thompson sampler. The proposed approach is able to learn optimal policies for a strictly broader class of Markov decision processes (MDPs) than standard Thompson sampling. Using an adaptive intervention simulation environment that captures key aspects of behavioral dynamics, we show that the proposed method can significantly out-perform standard Thompson sampling in terms of total return, while requiring significantly fewer episodes than standard value function and policy gradient methods.
- Abstract(参考訳): 強化学習(RL)の適用は、適応的な健康介入の最適化を含む現実的な試行を必要とする場合、コストや時間的制約により、学習に利用可能なエピソードの数が著しく制限される可能性がある。
この設定では、文脈的バンディット法のバイアス分散トレードオフは、より複雑なフルRL法よりもはるかに優れている。
しかし、トンプソンサンプリングの帯域幅は、即時報酬の分布に基づく行動の選択に限られる。
本稿では,線形トンプソンサンプリングバンドイットを,トンプソンサンプリング器が期待する即時報酬の見積と行動バイアス項を組み合わせた状態-作用効用関数に基づく動作を選択するように拡張する。
我々は、エピソードごとのバッチベイズ最適化を用いて、拡張トンプソンサンプリング器の期待値の最大化を目標として、アクションバイアス項を学習する。
提案手法は、標準的なトンプソンサンプリングよりも厳密なマルコフ決定過程(MDP)のクラスに対して最適なポリシーを学習することができる。
行動力学の重要な側面を捉えた適応的介入シミュレーション環境を用いて,提案手法は,標準値関数やポリシー勾配法よりも格段に少ないエピソードを必要としながら,標準トンプソンサンプリングよりも格段に優れることを示す。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement
Learning [17.860102738896096]
我々はトンプソンサンプリングの理論解析を行い、頻繁な後悔境界に焦点をあてる。
我々は、トンプソンサンプリングが新しい行動の探索に十分な積極的ではないことを示し、悲観的な状況下では準最適性をもたらすことを示した。
理論的枠組みは、標準的なトンプソンサンプリングに対するベイズ的後悔境界と、Feel-Good Thompson Samplingに対する頻繁な後悔境界を導出するのに利用できることを示す。
論文 参考訳(メタデータ) (2021-10-02T20:10:40Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Asymptotic Convergence of Thompson Sampling [0.0]
トンプソンサンプリングは、様々なオンライン学習タスクにおいて効果的なポリシーであることが示されている。
我々は、準線形ベイズ的後悔を仮定して、トンプソンサンプリングの収束結果を証明した。
この結果はトンプソンサンプリングに固有のマーチンゲール構造に依存している。
論文 参考訳(メタデータ) (2020-11-08T07:36:49Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Policy Gradient Optimization of Thompson Sampling Policies [3.3345263849085582]
一般化されたトンプソンサンプリングポリシーのクラスにおいて、ポリシー勾配アルゴリズムを用いて最適化する。
我々は,トンプソンサンプリング上での直接ポリシー探索が,アルゴリズムの既知の欠点のいくつかを自動的に修正することを示した。
論文 参考訳(メタデータ) (2020-06-30T03:27:22Z) - Odds-Ratio Thompson Sampling to Control for Time-Varying Effect [7.547547344228166]
マルチアームバンディット法は、特にオンラインサービスにおける動的実験に用いられている。
バイナリ報酬のための多くのトンプソンサンプリング方法は、特定のパラメータ化で書かれたロジスティックモデルを使用する。
そこで本研究では,時間変化の影響に対して頑健に機能することが期待される新しい手法"Odds-ratio thonmpson sample"を提案する。
論文 参考訳(メタデータ) (2020-03-04T05:48:21Z) - MOTS: Minimax Optimal Thompson Sampling [89.2370817955411]
トンプソンサンプリングがミニマックス下限の$Omega(sqrtKT)$と$K$の武器付きバンディット問題に一致するかどうかという未解決の問題のままである。
我々は,各タイミングで選択した腕のサンプリングインスタンスを適応的にクリップするMOTSと呼ばれるトンプソンサンプリングの変種を提案する。
我々は、この単純なトンプソンサンプリングの変種が、有限時間地平線に対して$O(sqrtKT)$のミニマックス最適後悔境界と、$T$が無限に近づくときのガウス報酬に対する最適後悔境界を達成することを証明した。
論文 参考訳(メタデータ) (2020-03-03T21:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。