論文の概要: Simple Modification of the Upper Confidence Bound Algorithm by
Generalized Weighted Averages
- arxiv url: http://arxiv.org/abs/2308.14350v1
- Date: Mon, 28 Aug 2023 06:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 15:11:22.058760
- Title: Simple Modification of the Upper Confidence Bound Algorithm by
Generalized Weighted Averages
- Title(参考訳): 一般化重み付き平均値によるuper confidence boundアルゴリズムの単純修正
- Authors: Nobuhito Manome, Shuji Shinohara, Ung-il Chung
- Abstract要約: マルチアームバンディット問題(英: multi-armed bandit problem、MAB)は、強化学習の不確実性の下で連続的な意思決定をモデル化する古典的な問題である。
我々は,MAB問題の代表的なアルゴリズムである UCB1 を拡張して,新しい一般化された高信頼度境界(GWA-UCB1)アルゴリズムを提案する。
GWA-UCB1 は G-UCB1 や UCB1-Tuned 、Thompson よりも多くの問題設定で優れており、多くの状況で有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-armed bandit (MAB) problem is a classical problem that models
sequential decision-making under uncertainty in reinforcement learning. In this
study, we propose a new generalized upper confidence bound (UCB) algorithm
(GWA-UCB1) by extending UCB1, which is a representative algorithm for MAB
problems, using generalized weighted averages, and present an effective
algorithm for various problem settings. GWA-UCB1 is a two-parameter
generalization of the balance between exploration and exploitation in UCB1 and
can be implemented with a simple modification of the UCB1 formula. Therefore,
this algorithm can be easily applied to UCB-based reinforcement learning
models. In preliminary experiments, we investigated the optimal parameters of a
simple generalized UCB1 (G-UCB1), prepared for comparison and GWA-UCB1, in a
stochastic MAB problem with two arms. Subsequently, we confirmed the
performance of the algorithms with the investigated parameters on stochastic
MAB problems when arm reward probabilities were sampled from uniform or normal
distributions and on survival MAB problems assuming more realistic situations.
GWA-UCB1 outperformed G-UCB1, UCB1-Tuned, and Thompson sampling in most problem
settings and can be useful in many situations. The code is available at
https://github.com/manome/python-mab.
- Abstract(参考訳): マルチアームバンディット問題(MAB)は、強化学習の不確実性の下で連続的な意思決定をモデル化する古典的な問題である。
本研究では、一般化重み付き平均を用いて、MAB問題の代表的なアルゴリズムであるUPB1を拡張することで、新しい一般化上信頼境界アルゴリズム(GWA-UCB1)を提案し、様々な問題設定に有効なアルゴリズムを提案する。
GWA-UCB1 は UCB1 における探索と利用のバランスの2パラメータ一般化であり、UCB1 の公式の簡単な修正で実装することができる。
したがって、このアルゴリズムはUCBに基づく強化学習モデルに容易に適用できる。
予備実験では,両腕の確率的mab問題において,簡単な一般化ucb1(g-ucb1)とgwa-ucb1の最適パラメータを検討した。
その後, アーム報酬確率を均一分布, 正規分布からサンプリングした場合の確率的MAB問題と, より現実的な状況を想定した生存的MAB問題に対するアルゴリズムの性能を確認した。
GWA-UCB1 は G-UCB1 や UCB1-Tuned 、Thompson よりも多くの問題設定で優れており、多くの状況で有用である。
コードはhttps://github.com/manome/python-mabで入手できる。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Genetic multi-armed bandits: a reinforcement learning approach for
discrete optimization via simulation [0.0]
本稿では,マルチアームバンディットの強化学習領域とランダム検索戦略を組み合わせて,シミュレーションによる離散最適化問題の解法を提案する。
本研究の目的は,多腕バンディットの特性と遺伝的アルゴリズムの高次元解空間処理能力を組み合わせることである。
論文 参考訳(メタデータ) (2023-02-15T14:46:19Z) - An Application of a Multivariate Estimation of Distribution Algorithm to
Cancer Chemotherapy [59.40521061783166]
癌に対する化学療法治療は、多数の相互作用する変数と制約を持つ複雑な最適化問題である。
より洗練されたアルゴリズムは、このような複雑な問題に対してより良いパフォーマンスをもたらすことが示される。
我々は、この問題における多数の相互作用によって、より洗練されたアルゴリズムが妨げられていることが原因であると仮定する。
論文 参考訳(メタデータ) (2022-05-17T15:28:46Z) - Fixed-Budget Best-Arm Identification in Structured Bandits [33.27743152847947]
固定予算設定におけるベストアーム識別(BAI)は、学習エージェントが一定の回数の観測後に最適な(ベスト)腕を特定する確率を最大化する盗賊問題である。
結合一般化モデルから平均報酬推定値に基づいて最適アームを除去し,構造を組み込んだ一般トラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T01:32:43Z) - A Closer Look at the Worst-case Behavior of Multi-armed Bandit
Algorithms [8.099977107670918]
アッパー信頼境界 (UCB) は楽観的なMABアルゴリズムである。
本稿では,UCBのアームサンプリング動作に関する新しい知見を提供する。
また、UPBの下でのMAB問題のプロセスレベルの特徴付けも提供する。
論文 参考訳(メタデータ) (2021-06-03T20:52:26Z) - Multi-armed Bandits with Cost Subsidy [1.6631602844999724]
本稿では、インテリジェントSMSルーティング問題と広告オーディエンス最適化問題という2つのアプリケーションを提案する。
既存のMABアルゴリズムの素早い一般化は、この問題に対してうまく機能しないことを示す。
また,このアルゴリズムに対して,探索定理の簡単な変種を提示し,ほぼ最適な後悔境界を定めている。
論文 参考訳(メタデータ) (2020-11-03T05:38:42Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。