論文の概要: Meta-Learning for Simple Regret Minimization
- arxiv url: http://arxiv.org/abs/2202.12888v1
- Date: Fri, 25 Feb 2022 18:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 13:43:02.102620
- Title: Meta-Learning for Simple Regret Minimization
- Title(参考訳): 単純後悔最小化のためのメタラーニング
- Authors: Mohammadjavad Azizi, Branislav Kveton, Mohammad Ghavamzadeh, Sumeet
Katariya
- Abstract要約: 本稿では,このメタ学習問題に対するベイズ的かつ頻繁なアルゴリズムを提案する。
頻繁なアルゴリズムのメタ単純後悔は$tildeO(sqrtm n + m/ sqrtn)$である。
バンディット問題のいくつかのクラスに対してアルゴリズムをインスタンス化する。
- 参考スコア(独自算出の注目度): 34.75895755834204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a meta-learning framework for simple regret minimization in
bandits. In this framework, a learning agent interacts with a sequence of
bandit tasks, which are sampled i.i.d.\ from an unknown prior distribution, and
learns its meta-parameters to perform better on future tasks. We propose the
first Bayesian and frequentist algorithms for this meta-learning problem. The
Bayesian algorithm has access to a prior distribution over the meta-parameters
and its meta simple regret over $m$ bandit tasks with horizon $n$ is mere
$\tilde{O}(m / \sqrt{n})$. This is while we show that the meta simple regret of
the frequentist algorithm is $\tilde{O}(\sqrt{m} n + m/ \sqrt{n})$, and thus,
worse. However, the algorithm is more general, because it does not need a prior
distribution over the meta-parameters, and is easier to implement for various
distributions. We instantiate our algorithms for several classes of bandit
problems. Our algorithms are general and we complement our theory by evaluating
them empirically in several environments.
- Abstract(参考訳): バンディットにおける簡単な後悔の最小化のためのメタラーニングフレームワークを開発する。
このフレームワークでは、学習エージェントが未知の事前分布からサンプル化された一連のバンディットタスクと相互作用し、そのメタパラメータを学習して、将来のタスクをよりよく実行する。
本稿では,このメタ学習問題に対するベイズ的かつ頻繁なアルゴリズムを提案する。
ベイズアルゴリズムは、メタパラメータ上の以前の分布にアクセスでき、そのメタ単純後悔は、水平線$n$は単に$\tilde{O}(m / \sqrt{n})$である。
これは、頻繁なアルゴリズムのメタ単純後悔が$\tilde{o}(\sqrt{m} n + m/ \sqrt{n})$であることを示す一方で、より悪いことである。
しかし、このアルゴリズムはメタパラメータの事前分布は不要であり、様々な分布の実装が容易であるため、より一般的なものである。
アルゴリズムをいくつかのバンディット問題のクラスにインスタンス化する。
我々のアルゴリズムは一般的であり、いくつかの環境で経験的に評価することで理論を補完する。
関連論文リスト
- Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery [45.601316850669406]
本稿では,政策評価,最良政策識別,後悔の最小化のための効率的なアルゴリズムを提案する。
政策評価と最良の政策識別のために,我々のアルゴリズムは最小限に最適であることを示す。
提案アルゴリズムは、まずスペクトル法を利用して、低ランク報酬行列の左特異部分空間と右特異部分空間を推定する。
論文 参考訳(メタデータ) (2024-02-24T06:36:08Z) - Learning Arithmetic Formulas in the Presence of Noise: A General
Framework and Applications to Unsupervised Learning [4.10375234787249]
教師なし学習問題に対する効率的なアルゴリズム設計のための枠組みを提案する。
我々のフレームワークは,雑音の存在下で演算回路を学習するメタアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2023-11-13T12:26:25Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Non-stationary Bandits and Meta-Learning with a Small Set of Optimal
Arms [30.024167992890916]
そこで本研究では,学習者が200ドル(約1万2000円)の帯域幅のタスクに直面する決定について検討する。
敵は各タスクの最適なアームを、M$アームのより小さな(しかし未知の)サブセットで選択することを制約される。
境界は既知のもの(非定常的メタラーニング設定)、あるいは未知のもの(非定常的バンディット設定)である。
論文 参考訳(メタデータ) (2022-02-25T22:28:01Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - No Regrets for Learning the Prior in Bandits [30.478188057004175]
$tt AdaTS$は、バンディットタスクに順次適応するトンプソンサンプリングアルゴリズムである。
$tt AdaTS$は、バンドイト問題のいくつかのクラスで効率的に実装できる完全ベイズアルゴリズムである。
論文 参考訳(メタデータ) (2021-07-13T15:51:32Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。