論文の概要: A Farewell to Arms: Sequential Reward Maximization on a Budget with a
Giving Up Option
- arxiv url: http://arxiv.org/abs/2003.03456v1
- Date: Fri, 6 Mar 2020 22:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 00:26:36.618798
- Title: A Farewell to Arms: Sequential Reward Maximization on a Budget with a
Giving Up Option
- Title(参考訳): 腕への別れ:諦めオプションで予算を最大化する連続的な報酬
- Authors: P Sharoff, Nishant A. Mehta, Ravi Ganti
- Abstract要約: エージェントが一度にひとつのアクションを採り、各アクションが時間的範囲を持つような、シーケンシャルな意思決定問題を考える。
我々は、対数的、問題依存的後悔境界を確立する上で、高い信頼度に基づくアルゴリズム(WAIT-UCB)を導入する。
- 参考スコア(独自算出の注目度): 5.1629297054995265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a sequential decision-making problem where an agent can take one
action at a time and each action has a stochastic temporal extent, i.e., a new
action cannot be taken until the previous one is finished. Upon completion, the
chosen action yields a stochastic reward. The agent seeks to maximize its
cumulative reward over a finite time budget, with the option of "giving up" on
a current action -- hence forfeiting any reward -- in order to choose another
action. We cast this problem as a variant of the stochastic multi-armed bandits
problem with stochastic consumption of resource. For this problem, we first
establish that the optimal arm is the one that maximizes the ratio of the
expected reward of the arm to the expected waiting time before the agent sees
the reward due to pulling that arm. Using a novel upper confidence bound on
this ratio, we then introduce an upper confidence based-algorithm, WAIT-UCB,
for which we establish logarithmic, problem-dependent regret bound which has an
improved dependence on problem parameters compared to previous works.
Simulations on various problem configurations comparing WAIT-UCB against the
state-of-the-art algorithms are also presented.
- Abstract(参考訳): エージェントが一度に1つのアクションを取ることができ、各アクションが確率的時間的範囲を持つ、すなわち、前のアクションが完了するまで新しいアクションを取ることができない、というシーケンシャルな意思決定問題を考える。
完了すると、選択されたアクションは確率的な報酬を与える。
エージェントは、その累積報酬を有限の時間予算に対して最大化することを目指しており、他のアクションを選択するために、現在のアクションを「諦める」という選択肢がある。
我々は、資源の確率的消費を伴う確率的マルチアームバンディット問題の変種としてこの問題を挙げた。
この問題に対して,まず,エージェントがアームを引っ張ることで報奨を受ける前に,アームの期待報酬と期待待ち時間との比率を最大化するのが最適アームであることを示す。
この比に縛られる新しい上層信頼度を用いて、従来の研究に比べて問題パラメータへの依存性が向上した対数的、問題依存的後悔境界を確立する、上層信頼に基づくアルゴリズムWAIT-UCBを導入する。
WAIT-UCBと最先端アルゴリズムを比較した様々な問題構成のシミュレーションも紹介する。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals [0.9831489366502302]
予算的マルチアーマッド・バンドイット(MAB)問題について検討し、プレイヤーが期待できない報酬とコストでK$アームから選択する。
非対称な信頼区間を用いた新しいアッパー信頼境界(UCB)サンプリングポリシーである$omega$-UCBを提案する。
これらの間隔は、サンプル平均とランダム変数の境界との間の距離でスケールし、報酬コスト比をより正確かつ厳密に推定する。
論文 参考訳(メタデータ) (2023-06-12T12:35:16Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - Mitigating Disparity while Maximizing Reward: Tight Anytime Guarantee
for Improving Bandits [6.537940428724029]
腕から得られる報酬が、受信したプル数に応じて増加するIMAB問題について検討する。
我々の主な貢献は、最良の累積報酬を達成するIMAB問題に対する任意のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-19T10:23:40Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - Break your Bandit Routine with LSD Rewards: a Last Switch Dependent
Analysis of Satiation and Seasonality [6.146046338698175]
そこで本研究では,腕が最後に動作を切り替えて以降の時間経過によって,腕の期待される報酬が完全に決定される,新たな非定常バンディット問題を導入する。
我々のモデルは、遅延依存報酬の概念を一般化し、報酬関数に関するほとんどの仮定を緩和する。
我々はアルゴリズムを証明し、最適な非定常ポリシーに関してその後悔を証明した。
論文 参考訳(メタデータ) (2021-10-22T14:53:13Z) - Combinatorial Blocking Bandits with Stochastic Delays [33.65025386998747]
最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。
本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。
我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。
腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
論文 参考訳(メタデータ) (2021-05-22T02:46:04Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。