論文の概要: Generalizing distribution of partial rewards for multi-armed bandits
with temporally-partitioned rewards
- arxiv url: http://arxiv.org/abs/2211.06883v1
- Date: Sun, 13 Nov 2022 12:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:37:47.539123
- Title: Generalizing distribution of partial rewards for multi-armed bandits
with temporally-partitioned rewards
- Title(参考訳): 時分割報酬を持つ多腕バンディットの部分報酬分布の一般化
- Authors: Ronald C. van den Broek, Rik Litjens, Tobias Sagis, Luc Siecker, Nina
Verbeeke and Pratik Gajane
- Abstract要約: 我々は、腕の累積報酬が複数のラウンドでどのように分配されるかの一般的な定式化を導入する。
ベータ・スプレッドが持つ仮定の下で、TP-MAB問題に対する低い境界を導出する。
TP-UCB-FR-G はβ-spread 特性を用いて,いくつかのシナリオにおける後悔の上限を改善するアルゴリズムである。
- 参考スコア(独自算出の注目度): 0.4194295877935867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the Multi-Armed Bandit problem with Temporally-Partitioned
Rewards (TP-MAB) setting in this paper. In the TP-MAB setting, an agent will
receive subsets of the reward over multiple rounds rather than the entire
reward for the arm all at once. In this paper, we introduce a general
formulation of how an arm's cumulative reward is distributed across several
rounds, called Beta-spread property. Such a generalization is needed to be able
to handle partitioned rewards in which the maximum reward per round is not
distributed uniformly across rounds. We derive a lower bound on the TP-MAB
problem under the assumption that Beta-spread holds. Moreover, we provide an
algorithm TP-UCB-FR-G, which uses the Beta-spread property to improve the
regret upper bound in some scenarios. By generalizing how the cumulative reward
is distributed, this setting is applicable in a broader range of applications.
- Abstract(参考訳): 本稿では,TP-MAB設定によるマルチArmed Bandit問題について検討する。
tp-mab設定では、エージェントは腕に対する報酬全体ではなく、複数のラウンドに対して報酬のサブセットを受け取る。
本稿では,腕の累積報酬がβ-spreadプロパティと呼ばれる複数のラウンドでどのように分配されるかを一般化する。
このような一般化は、ラウンドごとの最大報酬がラウンド毎に均一に分配されない分割報酬を処理できる必要がある。
β-spreadが持つという仮定の下で、tp-mab問題の下限を導出する。
さらに,いくつかのシナリオにおける後悔の上限を改善するために,ベータスプレッド特性を用いたtp-ucb-fr-gアルゴリズムを提案する。
累積報酬の分布を一般化することにより、この設定は広範囲のアプリケーションに適用できる。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z) - Combinatorial Blocking Bandits with Stochastic Delays [33.65025386998747]
最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。
本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。
我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。
腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
論文 参考訳(メタデータ) (2021-05-22T02:46:04Z) - Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax
Regret [5.1398743023989555]
我々は、各腕に関連する報酬の分布が時間変動であると仮定する非定常的マルチアーミングバンディット(MAB)問題を研究する。
提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。
論文 参考訳(メタデータ) (2021-01-22T07:34:09Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。