論文の概要: Multi-task Representation Learning with Stochastic Linear Bandits
- arxiv url: http://arxiv.org/abs/2202.10066v1
- Date: Mon, 21 Feb 2022 09:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 17:37:56.090189
- Title: Multi-task Representation Learning with Stochastic Linear Bandits
- Title(参考訳): 確率線形帯域を用いたマルチタスク表現学習
- Authors: Leonardo Cella, Karim Lounici, Massimiliano Pontil
- Abstract要約: 線形バンディットタスクの設定におけるトランスファーラーニングの問題について検討する。
我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。
- 参考スコア(独自算出の注目度): 34.77618818693938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of transfer-learning in the setting of stochastic linear
bandit tasks. We consider that a low dimensional linear representation is
shared across the tasks, and study the benefit of learning this representation
in the multi-task learning setting. Following recent results to design
stochastic bandit policies, we propose an efficient greedy policy based on
trace norm regularization. It implicitly learns a low dimensional
representation by encouraging the matrix formed by the task regression vectors
to be of low rank. Unlike previous work in the literature, our policy does not
need to know the rank of the underlying matrix. We derive an upper bound on the
multi-task regret of our policy, which is, up to logarithmic factors, of order
$\sqrt{NdT(T+d)r}$, where $T$ is the number of tasks, $r$ the rank, $d$ the
number of variables and $N$ the number of rounds per task. We show the benefit
of our strategy compared to the baseline $Td\sqrt{N}$ obtained by solving each
task independently. We also provide a lower bound to the multi-task regret.
Finally, we corroborate our theoretical findings with preliminary experiments
on synthetic data.
- Abstract(参考訳): 確率線形バンディット課題の設定における転校学習の問題について検討する。
我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。
確率的バンディットポリシーの設計に関する最近の結果に続いて,トレースノルム正規化に基づく効率的なグリーディポリシーを提案する。
タスク回帰ベクトルによって形成される行列を低ランクにすることで、暗黙的に低次元表現を学習する。
文献における以前の研究とは異なり、我々の方針は基盤となる行列のランクを知る必要はない。
ここで$t$はタスク数、$r$はランク数、$d$は変数数、$n$はタスクごとのラウンド数である。
各タスクを独立に解くことで得られるベースライン$Td\sqrt{N}$と比較して,我々の戦略の利点を示す。
また、マルチタスクの後悔に対する低い境界も提供します。
最後に, 合成データに関する予備実験を行い, 理論的知見を裏付ける。
関連論文リスト
- Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文 参考訳(メタデータ) (2022-12-01T00:14:35Z) - Joint Representation Training in Sequential Tasks with Shared Structure [40.1056491921582]
マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。
我々は$P$タスクに対する後悔を$O(PHdsqrtNH)$から$O((HdsqrtrP + HPsqrtrd)sqrtNH)$ over $N$ episodes of horizon$H$へと改善できることを示した。
論文 参考訳(メタデータ) (2022-06-24T18:10:00Z) - Provably Efficient Lifelong Reinforcement Learning with Linear Function
Approximation [41.460894569204065]
線形文脈マルコフ決定過程(MDP)の遺残条件における生涯強化学習(RL)について検討する。
本稿では, UCB Lifelong Value Distillation (UCBlvd) と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T06:53:28Z) - Meta Representation Learning with Contextual Linear Bandits [34.77618818693938]
線形バンディットタスクの設定におけるメタラーニングについて検討する。
学習した表現が未知の表現をうまく推定すると、下流のタスクを効率的に学習できることが示される。
論文 参考訳(メタデータ) (2022-05-30T13:43:53Z) - Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。
我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2022-03-29T15:27:13Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。
定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。
MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文 参考訳(メタデータ) (2021-05-18T06:46:48Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。