論文の概要: Multi-Environment Meta-Learning in Stochastic Linear Bandits
- arxiv url: http://arxiv.org/abs/2205.06326v1
- Date: Thu, 12 May 2022 19:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 02:05:43.676732
- Title: Multi-Environment Meta-Learning in Stochastic Linear Bandits
- Title(参考訳): 確率線形帯域におけるマルチ環境メタラーニング
- Authors: Ahmadreza Moradipari, Mohammad Ghavamzadeh, Taha Rajabzadeh, Christos
Thrampoulidis, Mahnoosh Alizadeh
- Abstract要約: 単一環境ではなく混合分布からタスクパラメータを引き出す場合のメタ学習の可能性を検討する。
我々は,新しいタスクが発する環境の知識を必要とせずに,新しいタスクに対する後悔度を低く抑えるOFULアルゴリズムの正規化バージョンを提案する。
- 参考スコア(独自算出の注目度): 49.387421094105136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we investigate meta-learning (or learning-to-learn) approaches
in multi-task linear stochastic bandit problems that can originate from
multiple environments. Inspired by the work of [1] on meta-learning in a
sequence of linear bandit problems whose parameters are sampled from a single
distribution (i.e., a single environment), here we consider the feasibility of
meta-learning when task parameters are drawn from a mixture distribution
instead. For this problem, we propose a regularized version of the OFUL
algorithm that, when trained on tasks with labeled environments, achieves low
regret on a new task without requiring knowledge of the environment from which
the new task originates. Specifically, our regret bound for the new algorithm
captures the effect of environment misclassification and highlights the
benefits over learning each task separately or meta-learning without
recognition of the distinct mixture components.
- Abstract(参考訳): 本研究では,マルチタスク線形確率帯域問題におけるメタラーニング(学習から学習への)アプローチについて検討する。
単一分布(すなわち単一環境)からパラメータをサンプリングした線形バンディット問題の列におけるメタラーニングに関する[1]の研究に着想を得て、タスクパラメータが混合分布から引き出される場合のメタラーニングの可能性について考察する。
そこで本研究では,ラベル付き環境を持つタスクでトレーニングを行う場合,新しいタスクが起源となる環境の知識を必要とせず,新たなタスクに対する後悔を少なくするofulアルゴリズムの正規化版を提案する。
具体的には、新しいアルゴリズムに対する後悔は、環境の誤分類の影響を捉え、各タスクを個別に学習することや、異なる混合成分を認識せずにメタラーニングすることの利点を強調する。
関連論文リスト
- Algorithm Design for Online Meta-Learning with Task Boundary Detection [57.07616532337541]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。
軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-02T04:02:49Z) - ImpressLearn: Continual Learning via Combined Task Impressions [0.0]
本研究は、破滅的な忘れを苦しめることなく、複数のタスクでディープニューラルネットワークを逐次訓練する新しい手法を提案する。
ランダムなバックボーンネットワーク上で少数のタスク固有のマスクの線形結合を学習するだけで、以前に学習したタスクの精度を維持したり、新しいタスクの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-10-05T02:28:25Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - A Distribution-Dependent Analysis of Meta-Learning [13.24264919706183]
メタラーニング理論の鍵となる問題は、タスク分布が伝達リスクにどのように影響するかを理解することである。
本稿では,任意のアルゴリズムの転送リスクに対して,分布依存性の低い境界を与える。
バイアス付き正規化回帰法(英語版)と呼ばれる新しい重み付きバージョンは、これらの下界を固定定数係数に一致させることができることを示す。
論文 参考訳(メタデータ) (2020-10-31T19:36:15Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。