論文の概要: Metalearning Linear Bandits by Prior Update
- arxiv url: http://arxiv.org/abs/2107.05320v1
- Date: Mon, 12 Jul 2021 11:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:22:49.707523
- Title: Metalearning Linear Bandits by Prior Update
- Title(参考訳): 事前更新による線形帯域のメタラーニング
- Authors: Amit Peleg, Naama Pearl and Ron Meir
- Abstract要約: 完全なベイズ的アプローチは、問題のパラメータは既知の事前から生成されると仮定するが、実際にはそのような情報は欠落することが多い。
この問題は、ある部分的な情報を持つ意思決定設定において悪化し、不特定事前の使用は、探索の質が悪く、性能が劣る可能性がある。
この研究において、線形帯域幅とガウス事前の文脈において、事前推定が真の事前に十分近い限り、不特定事前を用いたアルゴリズムの性能は真の先行を用いたアルゴリズムのそれに近いことを証明した。
- 参考スコア(独自算出の注目度): 7.519872646378836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully Bayesian approaches to sequential decision-making assume that problem
parameters are generated from a known prior, while in practice, such
information is often lacking, and needs to be estimated through learning. This
problem is exacerbated in decision-making setups with partial information,
where using a misspecified prior may lead to poor exploration and inferior
performance. In this work we prove, in the context of stochastic linear bandits
and Gaussian priors, that as long as the prior estimate is sufficiently close
to the true prior, the performance of an algorithm that uses the misspecified
prior is close to that of the algorithm that uses the true prior. Next, we
address the task of learning the prior through metalearning, where a learner
updates its estimate of the prior across multiple task instances in order to
improve performance on future tasks. The estimated prior is then updated within
each task based on incoming observations, while actions are selected in order
to maximize expected reward. In this work we apply this scheme within a linear
bandit setting, and provide algorithms and regret bounds, demonstrating its
effectiveness, as compared to an algorithm that knows the correct prior. Our
results hold for a broad class of algorithms, including, for example, Thompson
Sampling and Information Directed Sampling.
- Abstract(参考訳): シーケンシャルな意思決定に対する完全なベイズ的アプローチは、問題のパラメータは既知の事前から生成されるが、実際にはそのような情報は欠如しており、学習を通じて推定する必要があると仮定する。
この問題は、ある部分的な情報を持つ意思決定設定において悪化し、不特定事前の使用は、探索の質が悪く、性能が劣る可能性がある。
この研究において、確率線型包帯とガウス事前の文脈において、事前推定が真の先行値に十分近い限り、誤特定された先行値を使用するアルゴリズムの性能は真の先行値を使用するアルゴリズムのそれに近いことを証明した。
次に,学習者が複数のタスクインスタンスにまたがる事前推定値を更新して,将来のタスクの性能向上を図るメタラーニングを通じて,事前学習の課題に対処する。
推定前の値は、受信した観測に基づいて各タスク内で更新され、期待される報酬を最大化するためにアクションが選択される。
本研究では、このスキームを線形バンディット設定に適用し、正しい事前を知るアルゴリズムと比較して、その効果を示すアルゴリズムと後悔の境界を提供する。
私たちの結果は、例えばThompson SmplingやInformation Directed Smplingなど、幅広いアルゴリズムのクラスに当てはまります。
関連論文リスト
- Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - Time-Varying Gaussian Process Bandits with Unknown Prior [18.93478528448966]
PE-GP-UCBは時変ベイズ最適化問題を解くことができる。
これは、観測された関数の値が以前のいくつかの値と一致しているという事実に依存している。
論文 参考訳(メタデータ) (2024-02-02T18:52:16Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Minimalistic Predictions to Schedule Jobs with Online Precedence
Constraints [117.8317521974783]
オンライン優先制約による非サーボ的スケジューリングについて検討する。
アルゴリズムは、任意のジョブ依存に偏りがなく、前任者がすべて完了した場合に限り、ジョブについて学習する。
論文 参考訳(メタデータ) (2023-01-30T13:17:15Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Early Classification of Time Series. Cost-based Optimization Criterion
and Algorithms [0.0]
本稿では,誤分類のコストと決定を遅らせるコストの両方を考慮して,新たな最適化基準を提案する。
我々は、待ち時間とバランスを取りながら、将来期待される情報獲得を予想する非ミオピックアルゴリズムのファミリーを考案した。
論文 参考訳(メタデータ) (2020-05-20T10:08:30Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。