論文の概要: Thompson Sampling with Virtual Helping Agents
- arxiv url: http://arxiv.org/abs/2209.08197v1
- Date: Fri, 16 Sep 2022 23:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:13:37.072624
- Title: Thompson Sampling with Virtual Helping Agents
- Title(参考訳): 仮想ヘルプエージェントを用いたトンプソンサンプリング
- Authors: Kartik Anand Pant, Amod Hegde, and K. V. Srinivas
- Abstract要約: 我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of online sequential decision making, i.e., balancing
the trade-off between exploiting the current knowledge to maximize immediate
performance and exploring the new information to gain long-term benefits using
the multi-armed bandit framework. Thompson sampling is one of the heuristics
for choosing actions that address this exploration-exploitation dilemma. We
first propose a general framework that helps heuristically tune the exploration
versus exploitation trade-off in Thompson sampling using multiple samples from
the posterior distribution. Utilizing this framework, we propose two algorithms
for the multi-armed bandit problem and provide theoretical bounds on the
cumulative regret. Next, we demonstrate the empirical improvement in the
cumulative regret performance of the proposed algorithm over Thompson Sampling.
We also show the effectiveness of the proposed algorithm on real-world
datasets. Contrary to the existing methods, our framework provides a mechanism
to vary the amount of exploration/ exploitation based on the task at hand.
Towards this end, we extend our framework for two additional problems, i.e.,
best arm identification and time-sensitive learning in bandits and compare our
algorithm with existing methods.
- Abstract(参考訳): 我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を利用して即時パフォーマンスを最大化し、新しい情報を探索し、マルチアームのバンディットフレームワークを使って長期的な利益を得るというトレードオフに対処する。
トンプソンサンプリングは、この探索・探索ジレンマに対処する行動を選択するためのヒューリスティックの一つである。
まず,後方分布からの複数のサンプルを用いたトンプソンサンプリングにおいて,探索と搾取のトレードオフをヒューリスティックに調整する汎用フレームワークを提案する。
この枠組みを利用して,多腕バンディット問題に対する2つのアルゴリズムを提案し,累積後悔の理論的境界を与える。
次に,トンプソンサンプリングより提案アルゴリズムの累積後悔性能が向上することを示す。
また,実世界のデータセットに対する提案アルゴリズムの有効性を示す。
既存の手法とは対照的に、我々のフレームワークは、目前にあるタスクに基づいて探索・搾取の量を変えるメカニズムを提供する。
この目的に向けて,バンドイットにおける最善のアーム識別と時間に敏感な学習という2つの問題に対してフレームワークを拡張し,既存の手法と比較する。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Thompson Sampling on Asymmetric $\alpha$-Stable Bandits [0.0]
多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。
トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
論文 参考訳(メタデータ) (2022-03-19T01:55:08Z) - Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。
我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文 参考訳(メタデータ) (2021-09-06T08:58:01Z) - Batched Thompson Sampling for Multi-Armed Bandits [9.467098519620263]
本稿では,トンプソンサンプリングアルゴリズムを用いて,バッチ環境でのマルチアームバンディットについて検討する。
本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-15T20:47:46Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。
提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。
ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T17:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。