論文の概要: On the Power of Multitask Representation Learning in Linear MDP
- arxiv url: http://arxiv.org/abs/2106.08053v1
- Date: Tue, 15 Jun 2021 11:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:31:02.720778
- Title: On the Power of Multitask Representation Learning in Linear MDP
- Title(参考訳): 線形MDPにおけるマルチタスク表現学習の力について
- Authors: Rui Lu, Gao Huang, Simon S. Du
- Abstract要約: 本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
- 参考スコア(独自算出の注目度): 61.58929164172968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multitask representation learning has become a popular approach in
reinforcement learning (RL), theoretical understanding of why and when it works
remains limited. This paper presents analyses for the statistical benefit of
multitask representation learning in linear Markov Decision Process (MDP) under
a generative model. In this paper, we consider an agent to learn a
representation function $\phi$ out of a function class $\Phi$ from $T$ source
tasks with $N$ data per task, and then use the learned $\hat{\phi}$ to reduce
the required number of sample for a new task. We first discover a
\emph{Least-Activated-Feature-Abundance} (LAFA) criterion, denoted as $\kappa$,
with which we prove that a straightforward least-square algorithm learns a
policy which is $\tilde{O}(H^2\sqrt{\frac{\mathcal{C}(\Phi)^2 \kappa
d}{NT}+\frac{\kappa d}{n}})$ sub-optimal. Here $H$ is the planning horizon,
$\mathcal{C}(\Phi)$ is $\Phi$'s complexity measure, $d$ is the dimension of the
representation (usually $d\ll \mathcal{C}(\Phi)$) and $n$ is the number of
samples for the new task. Thus the required $n$ is $O(\kappa d H^4)$ for the
sub-optimality to be close to zero, which is much smaller than
$O(\mathcal{C}(\Phi)^2\kappa d H^4)$ in the setting without multitask
representation learning, whose sub-optimality gap is
$\tilde{O}(H^2\sqrt{\frac{\kappa \mathcal{C}(\Phi)^2d}{n}})$. This
theoretically explains the power of multitask representation learning in
reducing sample complexity. Further, we note that to ensure high sample
efficiency, the LAFA criterion $\kappa$ should be small. In fact, $\kappa$
varies widely in magnitude depending on the different sampling distribution for
new task. This indicates adaptive sampling technique is important to make
$\kappa$ solely depend on $d$. Finally, we provide empirical results of a noisy
grid-world environment to corroborate our theoretical findings.
- Abstract(参考訳): マルチタスク表現学習は強化学習(RL)において一般的なアプローチとなっているが、その理由と時期に関する理論的理解は依然として限られている。
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的利点を生成モデルで解析する。
本稿では、エージェントが関数クラスから$\phi$を学習し、1タスクあたり$n$のデータを持つ$t$ソースタスクから$\phi$を学習し、学習した$\hat{\phi}$を使用して新しいタスクに必要なサンプル数を削減する。
まず、簡単な最小二乗アルゴリズムが $\tilde{O}(H^2\sqrt {\frac{\mathcal{C}(\Phi)^2 \kappa d}{NT}+\frac {\kappa d}{n}})$ sub-optimal というポリシーを学ぶことを証明する。
ここで$h$は計画の地平線であり、$\mathcal{c}(\phi)$は$\phi$の複雑性測度であり、$d$は表現の次元(通常$d\ll \mathcal{c}(\phi)$)であり、$n$は新しいタスクのサンプル数である。
したがって、必須の$n$ は 0 に近い部分最適性に対して $o(\kappa d h^4)$ であり、これはマルチタスク表現学習なしでは $o(\mathcal{c}(\phi)^2\kappa d h^4)$ よりもずっと小さく、その部分最適性ギャップは $\tilde{o}(h^2\sqrt{\frac{\kappa \mathcal{c}(\phi)^2d}{n}})$ である。
この理論は、サンプルの複雑さを減らすことにおけるマルチタスク表現学習の力を説明する。
さらに,高い試料効率を確保するため,LAFA基準の$\kappa$は小さくすべきである。
実際、$\kappa$は、新しいタスクのサンプリング分布によって大きく異なる。
これは、$\kappa$を$d$にのみ依存させることが、適応サンプリング技術の重要性を示している。
最後に,我々の理論的知見を裏付けるために,ノイズの多いグリッドワールド環境の実証結果を提供する。
関連論文リスト
- Guarantees for Nonlinear Representation Learning: Non-identical Covariates, Dependent Data, Fewer Samples [24.45016514352055]
我々は、関数クラス$mathcal F times Mathcal G$から、T+1$関数$f_star(t) circ g_star$を学習する際のサンプル複雑度について研究する。
タスク数が$T$になるにつれて、サンプル要件とリスクバウンドの両方が$r$次元回帰に収束することを示す。
論文 参考訳(メタデータ) (2024-10-15T03:20:19Z) - Metalearning with Very Few Samples Per Task [19.78398372660794]
タスクが共有表現によって関連づけられるバイナリ分類について検討する。
ここでは、データ量は、見る必要のあるタスク数$t$と、タスク当たりのサンプル数$n$で測定されます。
我々の研究は、分布のないマルチタスク学習の特性とメタとマルチタスク学習の削減をもたらす。
論文 参考訳(メタデータ) (2023-12-21T16:06:44Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Adversarial Online Multi-Task Reinforcement Learning [12.421997449847153]
対戦型オンラインマルチタスク強化学習環境について考察する。
K$の各エピソードにおいて、学習者は未知のタスクをM$未知有限ホライゾン MDP モデルの有限集合から与えられる。
学習者の目的は,各課題に対する最適方針に関して,その後悔を一般化することである。
論文 参考訳(メタデータ) (2023-01-11T02:18:26Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs
with a Generative Model [3.749193647980305]
本稿では,一連の状態対応機能を有するマルコフ決定プロセス(MDP)について考察する。
モデルに基づくアプローチ(resp.$Q-learning)が、高い確率で$varepsilon$-Optimalポリシーを確実に学習することを示す。
論文 参考訳(メタデータ) (2021-05-28T17:49:39Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。
1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文 参考訳(メタデータ) (2020-02-21T17:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。