論文の概要: Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing
- arxiv url: http://arxiv.org/abs/2307.05834v1
- Date: Tue, 11 Jul 2023 22:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:51:06.378692
- Title: Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing
- Title(参考訳): 経験共有による分散マルチタスク強化学習のスケールアップ
- Authors: Sanae Amani, Khushbu Pahwa, Vladimir Braverman, Lin F. Yang
- Abstract要約: DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。
分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。
我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
- 参考スコア(独自算出の注目度): 38.883540444516605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, DARPA launched the ShELL program, which aims to explore how
experience sharing can benefit distributed lifelong learning agents in adapting
to new challenges. In this paper, we address this issue by conducting both
theoretical and empirical research on distributed multi-task reinforcement
learning (RL), where a group of $N$ agents collaboratively solves $M$ tasks
without prior knowledge of their identities. We approach the problem by
formulating it as linearly parameterized contextual Markov decision processes
(MDPs), where each task is represented by a context that specifies the
transition dynamics and rewards. To tackle this problem, we propose an
algorithm called DistMT-LSVI. First, the agents identify the tasks, and then
they exchange information through a central server to derive $\epsilon$-optimal
policies for the tasks. Our research demonstrates that to achieve
$\epsilon$-optimal policies for all $M$ tasks, a single agent using DistMT-LSVI
needs to run a total number of episodes that is at most
$\tilde{\mathcal{O}}({d^3H^6(\epsilon^{-2}+c_{\rm sep}^{-2})}\cdot M/N)$, where
$c_{\rm sep}>0$ is a constant representing task separability, $H$ is the
horizon of each episode, and $d$ is the feature dimension of the dynamics and
rewards. Notably, DistMT-LSVI improves the sample complexity of non-distributed
settings by a factor of $1/N$, as each agent independently learns
$\epsilon$-optimal policies for all $M$ tasks using
$\tilde{\mathcal{O}}(d^3H^6M\epsilon^{-2})$ episodes. Additionally, we provide
numerical experiments conducted on OpenAI Gym Atari environments that validate
our theoretical findings.
- Abstract(参考訳): darpaが最近立ち上げたshellプログラムは、経験共有が分散生涯学習エージェントに新しい課題への適応にどのように役立つかを探求することを目的としている。
本稿では,分散マルチタスク強化学習(rl)に関する理論的および実証的な研究を行い,n$エージェントの集団が,事前に身元を知らずに共同で$m$タスクを解く。
我々は,線形パラメータ化された文脈マルコフ決定プロセス(mdps)を定式化し,各タスクを遷移ダイナミクスと報酬を規定するコンテキストで表現することでこの問題にアプローチする。
そこで本研究では,DistMT-LSVIというアルゴリズムを提案する。
まず、エージェントはタスクを識別し、次に中央サーバーを介して情報を交換し、タスクに対する$\epsilon$-optimal Policyを導出する。
我々の研究は、$\epsilon$-optimal Policy for all $M$を達成するためには、DistMT-LSVIを使用する単一のエージェントが、最大で$\tilde{\mathcal{O}}({d^3H^6(\epsilon^{-2}+c_{\rm sep}^{-2})}\cdot M/N)$, where $c_{\rm sep}>0$はタスク分離性の定数表現であり、$H$は各エピソードの水平線であり、$d$はダイナミックスと報酬の特徴次元である。
DistMT-LSVIは、$\tilde{\mathcal{O}}(d^3H^6M\epsilon^{-2})$ episodesを使って、各エージェントが独立してすべての$M$タスクに対して$\epsilon$-optimal Policyを学習するため、非分散設定のサンプル複雑性を1/N$で改善する。
また,OpenAI Gym Atari環境における数値実験を行い,理論的な知見を検証した。
関連論文リスト
- Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。
また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文 参考訳(メタデータ) (2023-06-05T03:08:29Z) - Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文 参考訳(メタデータ) (2022-12-01T00:14:35Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Joint Representation Training in Sequential Tasks with Shared Structure [40.1056491921582]
マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。
我々は$P$タスクに対する後悔を$O(PHdsqrtNH)$から$O((HdsqrtrP + HPsqrtrd)sqrtNH)$ over $N$ episodes of horizon$H$へと改善できることを示した。
論文 参考訳(メタデータ) (2022-06-24T18:10:00Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - Multitask Online Mirror Descent [35.93027027759005]
MT-OMDは,タスク間で更新を共有して操作するオンラインミラードライザー(OMD)のマルチタスク一般化である。
OMD の重要な2つの例である Online Gradient Descent と Exponentiated Gradient の拡張は、クローズドフォームの更新を楽しみます。
論文 参考訳(メタデータ) (2021-06-04T10:14:57Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - Task-agnostic Exploration in Reinforcement Learning [35.403304641170386]
タスクに依存しない効率的な強化学習アルゴリズムtextscUCBZero を提案する。
少なくとも$tilde O(log(N)H5SA/epsilon2)$ Exploring episodesの後、$N$の任意のタスクに対して$epsilon$-optimal Policyを見つける。
また、$Omega(log (N)H2SA/epsilon2)$ lower boundを提供し、$N$への$log$依存性が避けられないことを示す。
論文 参考訳(メタデータ) (2020-06-16T20:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。