論文の概要: Tuning Confidence Bound for Stochastic Bandits with Bandit Distance
- arxiv url: http://arxiv.org/abs/2110.02690v1
- Date: Wed, 6 Oct 2021 12:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:40:34.596964
- Title: Tuning Confidence Bound for Stochastic Bandits with Bandit Distance
- Title(参考訳): 帯域幅を有する確率帯域に対するチューニング信頼境界
- Authors: Xinyu Zhang, Srinjoy Das, Ken Kreutz-Delgado
- Abstract要約: 標準 UCB の「距離チューニング」は,提案した距離尺度を用いて行う。
探検バルゲインポイント」は、探検と搾取のトレードオフに関する洞察を与える。
- 参考スコア(独自算出の注目度): 5.818764911456228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel modification of the standard upper confidence bound (UCB)
method for the stochastic multi-armed bandit (MAB) problem which tunes the
confidence bound of a given bandit based on its distance to others. Our UCB
distance tuning (UCB-DT) formulation enables improved performance as measured
by expected regret by preventing the MAB algorithm from focusing on non-optimal
bandits which is a well-known deficiency of standard UCB. "Distance tuning" of
the standard UCB is done using a proposed distance measure, which we call
bandit distance, that is parameterizable and which therefore can be optimized
to control the transition rate from exploration to exploitation based on
problem requirements. We empirically demonstrate increased performance of
UCB-DT versus many existing state-of-the-art methods which use the UCB
formulation for the MAB problem. Our contribution also includes the development
of a conceptual tool called the "Exploration Bargain Point" which gives
insights into the tradeoffs between exploration and exploitation. We argue that
the Exploration Bargain Point provides an intuitive perspective that is useful
for comparatively analyzing the performance of UCB-based methods.
- Abstract(参考訳): 本稿では,確率的マルチアームバンディット(MAB)問題に対する標準アッパー信頼境界法(UCB)の新たな修正法を提案する。
UCB 距離チューニング (UCB-DT) の定式化により,MAB アルゴリズムが標準 UCB の欠如としてよく知られている最適帯域に注目することを防止することにより,期待される後悔度による性能の向上が可能となった。
標準のucbの「距離チューニング」は、我々がbandit distanceと呼ぶ、パラメータ化可能で、探索から搾取までの遷移速度を問題要件に基づいて制御するために最適化できる距離測定器を用いて行われる。
我々は,MAB問題に UCB の定式化を用いた既存手法と比較して, UCB-DT の性能向上を実証的に実証した。
我々の貢献には、探索と搾取の間のトレードオフに関する洞察を与える"exploration bargain point"と呼ばれる概念ツールの開発も含まれています。
探索バーゲンポイントは, UCB法の性能を相対的に解析するのに有用な直感的な視点を提供する。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - UCB Exploration for Fixed-Budget Bayesian Best Arm Identification [0.0]
固定予算設定におけるベストアーム識別(BAI)について検討した。
ベイズ条件下での固定予算BAI問題に対して理論的かつ実験的に効率的であるUPB探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-09T05:15:36Z) - Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits [0.0]
対称な報酬分布のための分布自由データ駆動型 UCB アルゴリズムを提案する。
パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。
論文 参考訳(メタデータ) (2024-06-09T10:06:50Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary
Contextual Bandits [16.59103967569845]
本研究では,非定常環境におけるコンテキスト線形帯域に対するベイズ・最適周波数帯域上信頼境界(BOF-UCB)アルゴリズムを提案する。
このベイジアンと頻繁な原理の独特な組み合わせは、動的設定における適応性と性能を高める。
論文 参考訳(メタデータ) (2023-07-07T13:29:07Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic
Systems [11.581678142944318]
我々は'Reward Biased Maximum Likelihood Estimate' (RBMLE) というアプローチを再検討する。
本稿では,RAMLE法のペナルティとUCB法の制約を併用した拡張RBMLE-UCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-25T18:52:28Z) - Achieving the Pareto Frontier of Regret Minimization and Best Arm
Identification in Multi-Armed Bandits [91.8283876874947]
本稿では,BoBW-lil'UCB$(gamma)$アルゴリズムの設計と解析を行う。
i) RMとBAIの両方の目的に対して最適なアルゴリズムを同時に実行できないことを示す。
また、BoBW-lil'UCB$(gamma)$は、時間複雑性と後悔の点で競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-16T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。