論文の概要: Meta-learning with Stochastic Linear Bandits
- arxiv url: http://arxiv.org/abs/2005.08531v1
- Date: Mon, 18 May 2020 08:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 22:53:32.671793
- Title: Meta-learning with Stochastic Linear Bandits
- Title(参考訳): 確率線形帯域を用いたメタラーニング
- Authors: Leonardo Cella, Alessandro Lazaric, Massimiliano Pontil
- Abstract要約: 我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
- 参考スコア(独自算出の注目度): 120.43000970418939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate meta-learning procedures in the setting of stochastic linear
bandits tasks. The goal is to select a learning algorithm which works well on
average over a class of bandits tasks, that are sampled from a
task-distribution. Inspired by recent work on learning-to-learn linear
regression, we consider a class of bandit algorithms that implement a
regularized version of the well-known OFUL algorithm, where the regularization
is a square euclidean distance to a bias vector. We first study the benefit of
the biased OFUL algorithm in terms of regret minimization. We then propose two
strategies to estimate the bias within the learning-to-learn setting. We show
both theoretically and experimentally, that when the number of tasks grows and
the variance of the task-distribution is small, our strategies have a
significant advantage over learning the tasks in isolation.
- Abstract(参考訳): 確率線形バンディット課題の設定におけるメタラーニング手法について検討する。
目的は,タスク分布からサンプリングした帯域幅タスクのクラスに対して,平均的に動作する学習アルゴリズムを選択することである。
学習から学習への線形回帰に関する最近の研究に触発されて、よく知られたオフルアルゴリズムの正規化バージョンを実装したバンディットアルゴリズムのクラスを検討し、正規化はバイアスベクトルへの正方形ユークリッド距離である。
まず,後悔の最小化の観点からバイアス付きオウルアルゴリズムの利点について検討した。
次に,学習から学習までのバイアスを推定する2つの手法を提案する。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
関連論文リスト
- Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits [15.342585350280535]
本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。
本稿では,予測勾配勾配(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T22:30:29Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - PAC-Bayesian Lifelong Learning For Multi-Armed Bandits [38.76324445090305]
生涯学習におけるPAC-Bayesian分析について述べる。
各学習課題が多腕バンディット問題である場合について考察する。
我々は,新たな境界を学習目的とする生涯学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-07T11:23:12Z) - Multi-task Representation Learning with Stochastic Linear Bandits [29.8208189270894]
線形バンディットタスクの設定におけるトランスファーラーニングの問題について検討する。
我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。
論文 参考訳(メタデータ) (2022-02-21T09:26:34Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Learning-to-learn non-convex piecewise-Lipschitz functions [44.6133187924678]
両機械学習アルゴリズムに適用可能な非タスクであるピースワイズ・リプシッツ関数に対するアルゴリズムのメタラーニングを分析する。
複数のオンライン学習タスクからアルゴリズムのステップサイズの両方を学習する実用的なメタ学習手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T16:22:48Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Estimates on Learning Rates for Multi-Penalty Distribution Regression [5.999239529678357]
本研究では,学習理論の枠組みに基づく分散回帰のためのマルチペナルティ正規化アルゴリズムについて検討する。
Hilbert 空間 $mathcalH_K$ と Mercer カーネル $K$ を平均埋め込み技術により再現する。
この研究は、既存の文献では研究されていない非標準設定$f_rhonotinmathcalH_K$における分布回帰の学習率も導出している。
論文 参考訳(メタデータ) (2020-06-16T09:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。