Fugu-MT 論文翻訳(概要): Thompson Sampling on Asymmetric $\alpha$-Stable Bandits

論文の概要: Thompson Sampling on Asymmetric $\alpha$-Stable Bandits

arxiv url: http://arxiv.org/abs/2203.10214v1
Date: Sat, 19 Mar 2022 01:55:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-22 15:04:06.173388
Title: Thompson Sampling on Asymmetric $\alpha$-Stable Bandits
Title（参考訳）: 非対称{\alpha$-stable banditsのトンプソンサンプリング
Authors: Zhendong Shi
Abstract要約: 多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In algorithm optimization in reinforcement learning, how to deal with the exploration-exploitation dilemma is particularly important. Multi-armed bandit problem can optimize the proposed solutions by changing the reward distribution to realize the dynamic balance between exploration and exploitation. Thompson Sampling is a common method for solving multi-armed bandit problem and has been used to explore data that conform to various laws. In this paper, we consider the Thompson Sampling approach for multi-armed bandit problem, in which rewards conform to unknown asymmetric $\alpha$-stable distributions and explore their applications in modelling financial and wireless data.
Abstract（参考訳）: 強化学習におけるアルゴリズム最適化では,探索探索ジレンマに対処する方法が特に重要である。マルチアームバンディット問題は,探索と搾取のダイナミックバランスを実現するために報酬分布を変化させることで,提案手法を最適化することができる。トンプソンサンプリング(Thompson Sampling)は、多武装バンディット問題を解決する一般的な方法であり、様々な法則に従うデータ探索に用いられている。本稿では,非対称な$\alpha$-stable分布に報酬が適合するマルチアームバンディット問題に対するトンプソンサンプリング法を考察し,財務・無線データのモデル化におけるその応用を探る。

関連論文リスト

Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文参考訳（メタデータ） (2023-12-12T14:00:29Z)
Thompson Exploration with Best Challenger Rule in Best Arm Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文参考訳（メタデータ） (2023-10-01T01:37:02Z)
Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文参考訳（メタデータ） (2022-09-16T23:34:44Z)
Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文参考訳（メタデータ） (2022-06-22T17:58:23Z)
Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文参考訳（メタデータ） (2021-09-06T08:58:01Z)
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models [7.458639397686894]
効果的に探索する方法は、多腕バンディットにおける中心的な問題である。メタデータに基づくマルチタスクバンディット問題を導入する。ベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。
論文参考訳（メタデータ） (2021-08-13T22:45:05Z)
Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文参考訳（メタデータ） (2021-07-01T03:54:36Z)
Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文参考訳（メタデータ） (2021-02-19T18:36:03Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)
The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文参考訳（メタデータ） (2020-02-03T04:58:51Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。