Fugu-MT 論文翻訳(概要): Best Arm Identification for Stochastic Rising Bandits

論文の概要: Best Arm Identification for Stochastic Rising Bandits

arxiv url: http://arxiv.org/abs/2302.07510v1
Date: Wed, 15 Feb 2023 08:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-16 15:44:57.929031
Title: Best Arm Identification for Stochastic Rising Bandits
Title（参考訳）: 確率的ライジングバンドのためのベストアーム識別
Authors: Marco Mussi, Alessandro Montenegro, Francesco Trov\'o, Marcello Restelli and Alberto Maria Metelli
Abstract要約: Rising Banditsは、利用可能なオプションの期待される報酬の値が選択される度に増加する設定である。このフレームワークは、利用可能な選択肢が時間とともにパフォーマンスが向上する学習エンティティである幅広いシナリオをモデル化する。提案手法は,UCBライクなアプローチを取り入れたR-UCBEと,連続的なリジェクション手順を用いたR-SRという2つのアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 93.12525232849706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic Rising Bandits is a setting in which the values of the expected rewards of the available options increase every time they are selected. This framework models a wide range of scenarios in which the available options are learning entities whose performance improves over time. In this paper, we focus on the Best Arm Identification (BAI) problem for the stochastic rested rising bandits. In this scenario, we are asked, given a fixed budget of rounds, to provide a recommendation about the best option at the end of the selection process. We propose two algorithms to tackle the above-mentioned setting, namely R-UCBE, which resorts to a UCB-like approach, and R-SR, which employs a successive reject procedure. We show that they provide guarantees on the probability of properly identifying the optimal option at the end of the learning process. Finally, we numerically validate the proposed algorithms in synthetic and realistic environments and compare them with the currently available BAI strategies.
Abstract（参考訳）: 確率的ライジングバンド(Stochastic Rising Bandits)は、オプションが選択されるたびに、期待される報酬の値が増加する設定である。このフレームワークは、利用可能なオプションが時間とともにパフォーマンスが向上するエンティティを学習する幅広いシナリオをモデル化する。本稿では,確率的レストアップバンディットにおけるベストアーム識別(BAI)問題に着目した。このシナリオでは、一定の予算が与えられたラウンドに対して、選択プロセスの終了時に最適な選択肢を推奨するように求められます。提案手法は, UCBのようなアプローチを取り入れたR-UCBEと, 逐次リジェクション手法を用いたR-SRという2つのアルゴリズムを提案する。学習プロセスの最後に最適な選択肢を適切に特定する確率を保証していることを示す。最後に,提案したアルゴリズムを合成・現実的に検証し,現在利用可能なBAI戦略と比較する。

関連論文リスト

No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文参考訳（メタデータ） (2025-06-16T08:42:31Z)
New Additive OCBA Procedures for Robust Ranking and Selection [0.9558392439655016]
我々は,限られたサンプリング予算下での不正選択の可能性を最小限に抑えるため,新しい固定予算頑健なR&S手法を開発した。そこで我々は,従来のOCBA法よりも頑健なOCBA法の優越性を検証するため,総合的な数値的研究を行った。
論文参考訳（メタデータ） (2024-12-08T18:42:07Z)
Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文参考訳（メタデータ） (2024-10-17T00:44:50Z)
Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits [0.0]
対称な報酬分布のための分布自由データ駆動型 UCB アルゴリズムを提案する。パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。
論文参考訳（メタデータ） (2024-06-09T10:06:50Z)
Optimizing Sharpe Ratio: Risk-Adjusted Decision-Making in Multi-Armed Bandits [3.5502600490147196]
我々は、シャープ比(SR)が金融時系列の特徴付けにおける重要なパラメータであると考えている。我々は、レギュレット最小化(RM)とBest Arm Identification(BAI)のために、UCB-RSSRと呼ばれるSRを最適化する新しいアルゴリズムを提案する。 UCB-RSSRは、他のSR最適化バンディットアルゴリズムであるU-UCB Cassel et al(2023)よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-28T14:24:36Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文参考訳（メタデータ） (2022-12-07T17:30:45Z)
A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文参考訳（メタデータ） (2022-09-15T16:59:19Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文参考訳（メタデータ） (2020-11-16T06:09:56Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。