論文の概要: PAC-Bayesian Lifelong Learning For Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2203.03303v1
- Date: Mon, 7 Mar 2022 11:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 22:33:36.128950
- Title: PAC-Bayesian Lifelong Learning For Multi-Armed Bandits
- Title(参考訳): PAC-Bayesian Lifelong Learning for Multi-Armed Bandits
- Authors: Hamish Flynn, David Reeb, Melih Kandemir and Jan Peters
- Abstract要約: 生涯学習におけるPAC-Bayesian分析について述べる。
各学習課題が多腕バンディット問題である場合について考察する。
我々は,新たな境界を学習目的とする生涯学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 38.76324445090305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a PAC-Bayesian analysis of lifelong learning. In the lifelong
learning problem, a sequence of learning tasks is observed one-at-a-time, and
the goal is to transfer information acquired from previous tasks to new
learning tasks. We consider the case when each learning task is a multi-armed
bandit problem. We derive lower bounds on the expected average reward that
would be obtained if a given multi-armed bandit algorithm was run in a new task
with a particular prior and for a set number of steps. We propose lifelong
learning algorithms that use our new bounds as learning objectives. Our
proposed algorithms are evaluated in several lifelong multi-armed bandit
problems and are found to perform better than a baseline method that does not
use generalisation bounds.
- Abstract(参考訳): 生涯学習におけるPAC-Bayesian分析について述べる。
生涯学習問題では、学習タスクのシーケンスを1回ずつ観察し、前回のタスクから取得した情報を新しい学習タスクに転送することを目的としている。
各学習タスクがマルチアームのバンディット問題である場合を考える。
我々は、与えられた複数の腕を持つbanditアルゴリズムが、特定の前処理といくつかのステップで新しいタスクで実行された場合に得られる期待平均報酬の下限を導出する。
我々は,新たな境界を学習目的とする生涯学習アルゴリズムを提案する。
提案アルゴリズムは, 生涯にわたるマルチアームバンディット問題において評価され, 一般化境界を用いないベースライン法よりも優れた性能を示した。
関連論文リスト
- Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits [15.342585350280535]
本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。
本稿では,予測勾配勾配(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T22:30:29Z) - Continual Learning of Numerous Tasks from Long-tail Distributions [17.706669222987273]
継続的な学習は、以前獲得した知識を維持しながら、新しいタスクを学習し、適応するモデルの開発に焦点を当てる。
既存の連続学習アルゴリズムは、通常、一定の大きさの少数のタスクを伴い、現実世界の学習シナリオを正確に表現しないことがある。
本稿では,従来のタスクから第2モーメントの重み付け平均を維持することで,アダムの状態を再利用する手法を提案する。
提案手法は,既存のほとんどの連続学習アルゴリズムと互換性があり,少ない計算量やメモリコストで忘れを効果的に削減できることを実証する。
論文 参考訳(メタデータ) (2024-04-03T13:56:33Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Self-paced Weight Consolidation for Continual Learning [39.27729549041708]
連続学習アルゴリズムは、逐次的なタスク学習設定における破滅的な忘れ込みを防ぐのに人気がある。
継続学習を実現するために,自己ペーストウェイト統合(spWC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T13:07:41Z) - Lifelong Bandit Optimization: No Prior and No Regret [70.94238868711952]
我々は,過去の経験から学習することで環境に適応するアルゴリズムであるLIBOを開発した。
カーネルが未知だが、すべてのタスク間で共有されるカーネル構造を仮定する。
我々のアルゴリズムは、任意のカーネル化または線形バンディットアルゴリズムと組み合わせて、最適な性能を保証できる。
論文 参考訳(メタデータ) (2022-10-27T14:48:49Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Lifelong Learning in Multi-Armed Bandits [22.301793734117805]
本研究では,複数台のバンディットフレームワークの問題点を,一連のタスクで発生した後悔を最小化することを目的として検討する。
ほとんどのバンディットアルゴリズムは、最悪のケースの後悔が少ないように設計されていますが、ここでは、以前のディストリビューションから引き出されたバンディットインスタンスに対する平均的な後悔を調べます。
論文 参考訳(メタデータ) (2020-12-28T15:13:31Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。