Fugu-MT 論文翻訳(概要): CORe: Capitalizing On Rewards in Bandit Exploration

論文の概要: CORe: Capitalizing On Rewards in Bandit Exploration

arxiv url: http://arxiv.org/abs/2103.04387v1
Date: Sun, 7 Mar 2021 16:09:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-09 15:57:10.232170
Title: CORe: Capitalizing On Rewards in Bandit Exploration
Title（参考訳）: CORe:バンディット探索における報酬の活用
Authors: Nan Wang, Branislav Kveton, Maryam Karimzadehgan
Abstract要約: 過去の観測をランダム化して純粋に探索するバンディットアルゴリズムを提案する。平均報酬推定における十分な楽観性は、過去の観測された報酬の分散を利用して達成される。アルゴリズムCapitalizing On Rewards(CORe)と名付けます。
参考スコア（独自算出の注目度）: 15.694813164770862
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a bandit algorithm that explores purely by randomizing its past observations. In particular, the sufficient optimism in the mean reward estimates is achieved by exploiting the variance in the past observed rewards. We name the algorithm Capitalizing On Rewards (CORe). The algorithm is general and can be easily applied to different bandit settings. The main benefit of CORe is that its exploration is fully data-dependent. It does not rely on any external noise and adapts to different problems without parameter tuning. We derive a $\tilde O(d\sqrt{n\log K})$ gap-free bound on the $n$-round regret of CORe in a stochastic linear bandit, where $d$ is the number of features and $K$ is the number of arms. Extensive empirical evaluation on multiple synthetic and real-world problems demonstrates the effectiveness of CORe.
Abstract（参考訳）: 過去の観測をランダム化して純粋に探索するバンディットアルゴリズムを提案する。特に、平均報酬推定における十分な楽観性は、過去の観測された報酬の分散を利用して達成される。我々は報酬(コア)に乗じたアルゴリズムを命名する。アルゴリズムは一般的であり、様々なバンディット設定に容易に適用できる。 COReの主な利点は、その探索が完全にデータに依存していることです。外部ノイズに依存しず、パラメータチューニングなしでさまざまな問題に適応します。我々は、$d$が特徴の数であり、$K$が腕の数である確率的な線形バンドイットにおいて、$n$-roundのCOReの後悔に、$\tilde O(d\sqrt{n\log K})$のギャップフリー境界を導出する。複数の合成および実世界の問題に関する広範な経験的評価は、COReの有効性を示す。

関連論文リスト

Catoni Contextual Bandits are Robust to Heavy-tailed Rewards [31.381627608971414]
頑健な統計量からカトニ推定器上にアルゴリズム的アプローチを構築する。我々は、累積的な報酬分散と対数的に報酬範囲の$R$にのみ依存する後悔境界を確立する。アルゴリズムはまた、対数的報酬範囲依存を伴う分散ベースのバウンダリも享受する。
論文参考訳（メタデータ） (2025-02-04T17:03:32Z)
Incentive-compatible Bandits: Importance Weighting No More [14.344759978208957]
本稿では,包括的フィードバックによるインセンティブ適合型オンライン学習の課題について検討する。この研究では、最初のインセンティブに適合するアルゴリズムを提案し、$O(sqrtKT)$ regret bounds を楽しむ。
論文参考訳（メタデータ） (2024-05-10T13:57:13Z)
Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。 Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文参考訳（メタデータ） (2024-03-15T23:36:55Z)
Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文参考訳（メタデータ） (2023-04-25T09:31:20Z)
Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。 3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文参考訳（メタデータ） (2022-06-16T02:19:37Z)
A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。 GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文参考訳（メタデータ） (2022-02-03T21:19:36Z)
Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文参考訳（メタデータ） (2021-12-13T09:48:54Z)
Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文参考訳（メタデータ） (2021-10-25T02:53:24Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)
An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic Gradient Descent and Thompson Sampling [83.48992319018147]
プレイヤーが過去の観測結果に基づいて逐次意思決定を行い、累積報酬を最大化する文脈的帯域幅問題を考える。この問題を解決する自然な方法は、ステップごとの時間とメモリの複雑さを一定に抑えるために、オンライン勾配降下(SGD)を適用することである。本研究では,オンラインSGDが一般化線形帯域問題に適用可能であることを示す。過去の情報を活用するためにシングルステップのSGD更新を利用するSGD-TSアルゴリズムは、全時間複雑度で$tildeO(sqrtT)$ regretを達成する。
論文参考訳（メタデータ） (2020-06-07T01:12:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。