論文の概要: Joint Representation Training in Sequential Tasks with Shared Structure
- arxiv url: http://arxiv.org/abs/2206.12441v1
- Date: Fri, 24 Jun 2022 18:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:33:40.668877
- Title: Joint Representation Training in Sequential Tasks with Shared Structure
- Title(参考訳): 共有構造を有する逐次タスクにおける協調表現訓練
- Authors: Aldo Pacchiano, Ofir Nachum, Nilseh Tripuraneni, Peter Bartlett
- Abstract要約: マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。
我々は$P$タスクに対する後悔を$O(PHdsqrtNH)$から$O((HdsqrtrP + HPsqrtrd)sqrtNH)$ over $N$ episodes of horizon$H$へと改善できることを示した。
- 参考スコア(独自算出の注目度): 40.1056491921582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical theory in reinforcement learning (RL) predominantly focuses on the
single task setting, where an agent learns to solve a task through
trial-and-error experience, given access to data only from that task. However,
many recent empirical works have demonstrated the significant practical
benefits of leveraging a joint representation trained across multiple, related
tasks. In this work we theoretically analyze such a setting, formalizing the
concept of task relatedness as a shared state-action representation that admits
linear dynamics in all the tasks. We introduce the Shared-MatrixRL algorithm
for the setting of Multitask MatrixRL. In the presence of $P$ episodic tasks of
dimension $d$ sharing a joint $r \ll d$ low-dimensional representation, we show
the regret on the the $P$ tasks can be improved from $O(PHd\sqrt{NH})$ to
$O((Hd\sqrt{rP} + HP\sqrt{rd})\sqrt{NH})$ over $N$ episodes of horizon $H$.
These gains coincide with those observed in other linear models in contextual
bandits and RL. In contrast with previous work that have studied multi task RL
in other function approximation models, we show that in the presence of
bilinear optimization oracle and finite state action spaces there exists a
computationally efficient algorithm for multitask MatrixRL via a reduction to
quadratic programming. We also develop a simple technique to shave off a
$\sqrt{H}$ factor from the regret upper bounds of some episodic linear
problems.
- Abstract(参考訳): 古典的強化学習理論(rl)は、エージェントが試行錯誤の経験を通じてタスクを解くことを学習し、そのタスクからのみデータにアクセスするという、1つのタスク設定に焦点を当てている。
しかし、近年の実証研究の多くは、複数の関連するタスクにまたがって訓練された共同表現を活用するという、重要な実践的な利点を実証している。
本研究では,タスク関連性の概念を,すべてのタスクにおいて線形力学を許容する共有状態-作用表現として定式化する。
マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。
ジョイント $r \ll d$ 低次元表現を共有する$p$エピソディックタスクが存在する場合、$p$タスクが$o(phd\sqrt{nh})$から$o(((hd\sqrt{rp} + hp\sqrt{rd})\sqrt{nh})$で$n$のホライズン$h$に改善できることを示す。
これらの利得は、文脈的包帯とRLの他の線形モデルで観測されたものと一致する。
他の関数近似モデルでマルチタスクRLを研究する以前の研究とは対照的に、双線型最適化オラクルや有限状態作用空間の存在下では、二次プログラミングへの還元によるマルチタスクMatrixRLの計算効率のよいアルゴリズムが存在する。
また、いくつかのエピソディック線形問題の後悔の上限から$\sqrt{h}$ factorを削る簡単な手法も開発した。
関連論文リスト
- Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。
分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。
我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文 参考訳(メタデータ) (2023-07-11T22:58:53Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。
我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2022-03-29T15:27:13Z) - Multi-task Representation Learning with Stochastic Linear Bandits [29.8208189270894]
線形バンディットタスクの設定におけるトランスファーラーニングの問題について検討する。
我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。
論文 参考訳(メタデータ) (2022-02-21T09:26:34Z) - Near-optimal Representation Learning for Linear Bandits and Linear RL [41.33483293243257]
私たちはまず、次元が$d$の線形バンディットを同時に$M$で演奏する設定を考えます。
これらの包帯は、$k$-次元線型表現を共有するので、$kll d$ と $k ll M$ が成り立つ。
我々は、共有表現を利用して$tildeO(MsqrtdkT + dsqrtkMT )を後悔するサンプル効率のアルゴリズムMTLR-OFULを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:11:53Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。