論文の概要: Little Exploration is All You Need
- arxiv url: http://arxiv.org/abs/2310.17538v1
- Date: Thu, 26 Oct 2023 16:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:06:29.674557
- Title: Little Exploration is All You Need
- Title(参考訳): 小さな探検が必要なのは
- Authors: Henry H.H. Chen, Jiaming Lu
- Abstract要約: マルチアームバンディット問題において,標準 UCB アルゴリズムの新たな修正を導入する。
タスクの難易度を考慮に入れた$tau > 1/2$の調整付きボーナス項を提案する。
UCB$tau$と表記される提案アルゴリズムは,包括的後悔とリスク分析によって検証される。
- 参考スコア(独自算出の注目度): 1.9321472560290351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing principle of "Optimism in the Face of Uncertainty" advocates
for the incorporation of an exploration bonus, generally assumed to be
proportional to the inverse square root of the visit count ($1/\sqrt{n}$),
where $n$ is the number of visits to a particular state-action pair. This
approach, however, exclusively focuses on "uncertainty," neglecting the
inherent "difficulty" of different options. To address this gap, we introduce a
novel modification of standard UCB algorithm in the multi-armed bandit problem,
proposing an adjusted bonus term of $1/n^\tau$, where $\tau > 1/2$, that
accounts for task difficulty. Our proposed algorithm, denoted as UCB$^\tau$, is
substantiated through comprehensive regret and risk analyses, confirming its
theoretical robustness. Comparative evaluations with standard UCB and Thompson
Sampling algorithms on synthetic datasets demonstrate that UCB$^\tau$ not only
outperforms in efficacy but also exhibits lower risk across various
environmental conditions and hyperparameter settings.
- Abstract(参考訳): 不確実性に直面したオプティミズム」の原則は、通常、訪問数(英語版)の逆平方根(英語版)($1/\sqrt{n}$)に比例する探索ボーナスを定式化することを提唱している。
しかし、このアプローチは「不確かさ」にのみ焦点をあて、異なる選択肢の固有の「難しさ」を無視している。
このギャップに対処するために,マルチアームバンディット問題における標準ucbアルゴリズムの新たな修正を導入し,タスク難易度を考慮した1/n^\tau$($\tau > 1/2$)の調整ボーナス項を提案する。
UCB$^\tau$と表記される提案アルゴリズムは、その理論的堅牢性を確認するために、包括的後悔とリスク分析によって裏付けられる。
合成データセットにおける標準のucbとトンプソンサンプリングアルゴリズムによる比較評価は、ucb$^\tau$が有効性を上回るだけでなく、様々な環境条件やハイパーパラメータの設定において低いリスクを示すことを示している。
関連論文リスト
- Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Variance-Aware Linear UCB with Deep Representation for Neural Contextual Bandits [9.877915844066338]
ニューラルアッパー信頼バウンド(UCB)アルゴリズムは、文脈的帯域幅で成功している。
本稿では,$sigma2_t$,すなわちラウンド$t$における報奨雑音の上限値を利用する分散認識アルゴリズムを提案する。
我々は,本アルゴリズムのオラクル版として,オラクル分散上界$sigma2_t$と,この分散境界に対する新しい推定値を持つ実用版を特徴とする。
論文 参考訳(メタデータ) (2024-11-08T21:24:14Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Stochastic Shortest Path: Minimax, Parameter-Free and Towards
Horizon-Free Regret [144.6358229217845]
エージェントが目標状態に到達する前に蓄積される期待コストを最小限に抑えるために,最短経路(ssp)設定で学習する問題について検討する。
我々は,経験的遷移を慎重に歪曲し,探索ボーナスで経験的コストを摂動する新しいモデルベースアルゴリズムEB-SSPを設計する。
私達はEB-SSPが$widetildeO(B_star sqrtS A K)$のミニマックスの後悔率を達成することを証明します。
論文 参考訳(メタデータ) (2021-04-22T17:20:48Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。