論文の概要: Distilled Thompson Sampling: Practical and Efficient Thompson Sampling
via Imitation Learning
- arxiv url: http://arxiv.org/abs/2011.14266v2
- Date: Tue, 8 Dec 2020 03:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 09:08:18.382626
- Title: Distilled Thompson Sampling: Practical and Efficient Thompson Sampling
via Imitation Learning
- Title(参考訳): 蒸留トンプソンサンプリング:模倣学習による実用的かつ効率的なトンプソンサンプリング
- Authors: Hongseok Namkoong, Samuel Daulton, Eytan Bakshy
- Abstract要約: 本稿では,トンプソンサンプリングポリシーを明示的なポリシー表現に蒸留する,模倣学習に基づく新しいアルゴリズムを提案する。
本アルゴリズムは,TSポリシーのオフラインバッチ更新を反復的に行い,新しい模倣ポリシーを学習する。
我々の模倣アルゴリズムは、単一ステップの模倣誤りの合計まで、TSに匹敵するベイズ後悔を保証します。
- 参考スコア(独自算出の注目度): 23.504973357538418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling (TS) has emerged as a robust technique for contextual
bandit problems. However, TS requires posterior inference and optimization for
action generation, prohibiting its use in many internet applications where
latency and ease of deployment are of concern. We propose a novel
imitation-learning-based algorithm that distills a TS policy into an explicit
policy representation by performing posterior inference and optimization
offline. The explicit policy representation enables fast online decision-making
and easy deployment in mobile and server-based environments. Our algorithm
iteratively performs offline batch updates to the TS policy and learns a new
imitation policy. Since we update the TS policy with observations collected
under the imitation policy, our algorithm emulates an off-policy version of TS.
Our imitation algorithm guarantees Bayes regret comparable to TS, up to the sum
of single-step imitation errors. We show these imitation errors can be made
arbitrarily small when unlabeled contexts are cheaply available, which is the
case for most large-scale internet applications. Empirically, we show that our
imitation policy achieves comparable regret to TS, while reducing decision-time
latency by over an order of magnitude.
- Abstract(参考訳): トンプソンサンプリング(TS)は文脈的包帯問題に対する堅牢な手法として登場した。
しかし、TSは後続の推論とアクション生成の最適化を必要とし、レイテンシとデプロイの容易さが懸念される多くのインターネットアプリケーションでの使用を禁止している。
後部推論と最適化をオフラインで行うことで、TSポリシーを明示的なポリシー表現に蒸留する新しい模倣学習アルゴリズムを提案する。
明示的なポリシー表現は、高速なオンライン意思決定とモバイルおよびサーバベースの環境へのデプロイを可能にする。
我々のアルゴリズムはTSポリシーのオフラインバッチ更新を繰り返し行い、新しい模倣ポリシーを学習する。
我々は,tsポリシーを模倣ポリシーで収集した観察値で更新するため,tsのオフポリシー版をエミュレートする。
当社の模倣アルゴリズムは,tsに匹敵するベイズ後悔を,一段階の模倣誤差の和まで保証する。
大規模なインターネットアプリケーションの場合、ラベルのないコンテキストが安価に利用できる場合、これらの模倣エラーを任意に小さくすることができることを示す。
実証的に、我々の模倣ポリシーはTSに匹敵する後悔を達成し、決定時間の遅延を桁違いに減らしていることを示す。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Policy Gradient Optimization of Thompson Sampling Policies [3.3345263849085582]
一般化されたトンプソンサンプリングポリシーのクラスにおいて、ポリシー勾配アルゴリズムを用いて最適化する。
我々は,トンプソンサンプリング上での直接ポリシー探索が,アルゴリズムの既知の欠点のいくつかを自動的に修正することを示した。
論文 参考訳(メタデータ) (2020-06-30T03:27:22Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。