Fugu-MT 論文翻訳(概要): Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing

論文の概要: Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing

arxiv url: http://arxiv.org/abs/2307.05834v1
Date: Tue, 11 Jul 2023 22:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 14:51:06.378692
Title: Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing
Title（参考訳）: 経験共有による分散マルチタスク強化学習のスケールアップ
Authors: Sanae Amani, Khushbu Pahwa, Vladimir Braverman, Lin F. Yang
Abstract要約: DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
参考スコア（独自算出の注目度）: 38.883540444516605
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, DARPA launched the ShELL program, which aims to explore how experience sharing can benefit distributed lifelong learning agents in adapting to new challenges. In this paper, we address this issue by conducting both theoretical and empirical research on distributed multi-task reinforcement learning (RL), where a group of $N$ agents collaboratively solves $M$ tasks without prior knowledge of their identities. We approach the problem by formulating it as linearly parameterized contextual Markov decision processes (MDPs), where each task is represented by a context that specifies the transition dynamics and rewards. To tackle this problem, we propose an algorithm called DistMT-LSVI. First, the agents identify the tasks, and then they exchange information through a central server to derive $\epsilon$-optimal policies for the tasks. Our research demonstrates that to achieve $\epsilon$-optimal policies for all $M$ tasks, a single agent using DistMT-LSVI needs to run a total number of episodes that is at most $\tilde{\mathcal{O}}({d^3H^6(\epsilon^{-2}+c_{\rm sep}^{-2})}\cdot M/N)$, where $c_{\rm sep}>0$ is a constant representing task separability, $H$ is the horizon of each episode, and $d$ is the feature dimension of the dynamics and rewards. Notably, DistMT-LSVI improves the sample complexity of non-distributed settings by a factor of $1/N$, as each agent independently learns $\epsilon$-optimal policies for all $M$ tasks using $\tilde{\mathcal{O}}(d^3H^6M\epsilon^{-2})$ episodes. Additionally, we provide numerical experiments conducted on OpenAI Gym Atari environments that validate our theoretical findings.
Abstract（参考訳）: darpaが最近立ち上げたshellプログラムは、経験共有が分散生涯学習エージェントに新しい課題への適応にどのように役立つかを探求することを目的としている。本稿では,分散マルチタスク強化学習(rl)に関する理論的および実証的な研究を行い,n$エージェントの集団が,事前に身元を知らずに共同で$m$タスクを解く。我々は,線形パラメータ化された文脈マルコフ決定プロセス(mdps)を定式化し,各タスクを遷移ダイナミクスと報酬を規定するコンテキストで表現することでこの問題にアプローチする。そこで本研究では,DistMT-LSVIというアルゴリズムを提案する。まず、エージェントはタスクを識別し、次に中央サーバーを介して情報を交換し、タスクに対する$\epsilon$-optimal Policyを導出する。我々の研究は、$\epsilon$-optimal Policy for all $M$を達成するためには、DistMT-LSVIを使用する単一のエージェントが、最大で$\tilde{\mathcal{O}}({d^3H^6(\epsilon^{-2}+c_{\rm sep}^{-2})}\cdot M/N)$, where $c_{\rm sep}>0$はタスク分離性の定数表現であり、$H$は各エピソードの水平線であり、$d$はダイナミックスと報酬の特徴次元である。 DistMT-LSVIは、$\tilde{\mathcal{O}}(d^3H^6M\epsilon^{-2})$ episodesを使って、各エージェントが独立してすべての$M$タスクに対して$\epsilon$-optimal Policyを学習するため、非分散設定のサンプル複雑性を1/N$で改善する。また,OpenAI Gym Atari環境における数値実験を行い,理論的な知見を検証した。

関連論文リスト

Beyond Task Diversity: Provable Representation Transfer for Sequential Multi-Task Linear Bandits [17.970177214029473]
本研究では,線形バンディットにおける生涯学習について研究し,そこでは学習者が一連の線形バンディットタスクと対話する。現在の文献では、これらのタスクは多様であり、例えば、それらのパラメータは$m$次元の部分空間に一様に存在すると仮定している。タスクの多様性を仮定せずに連続したマルチタスク線形帯域に対する最初の非自明な結果を示す。
論文参考訳（メタデータ） (2025-01-23T05:21:27Z)
Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。 MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文参考訳（メタデータ） (2023-10-04T14:11:12Z)
Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文参考訳（メタデータ） (2023-06-05T03:08:29Z)
Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文参考訳（メタデータ） (2022-12-01T00:14:35Z)
Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文参考訳（メタデータ） (2022-10-05T22:52:00Z)
Joint Representation Training in Sequential Tasks with Shared Structure [40.1056491921582]
マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。我々は$P$タスクに対する後悔を$O(PHdsqrtNH)$から$O((HdsqrtrP + HPsqrtrd)sqrtNH)$ over $N$ episodes of horizon$H$へと改善できることを示した。
論文参考訳（メタデータ） (2022-06-24T18:10:00Z)
Reward-Free Model-Based Reinforcement Learning with Linear Function Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文参考訳（メタデータ） (2021-10-12T23:03:58Z)
On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文参考訳（メタデータ） (2021-06-15T11:21:06Z)
Multitask Online Mirror Descent [35.93027027759005]
MT-OMDは,タスク間で更新を共有して操作するオンラインミラードライザー(OMD)のマルチタスク一般化である。 OMD の重要な2つの例である Online Gradient Descent と Exponentiated Gradient の拡張は、クローズドフォームの更新を楽しみます。
論文参考訳（メタデータ） (2021-06-04T10:14:57Z)
On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文参考訳（メタデータ） (2020-06-20T20:33:59Z)
Task-agnostic Exploration in Reinforcement Learning [35.403304641170386]
タスクに依存しない効率的な強化学習アルゴリズムtextscUCBZero を提案する。少なくとも$tilde O(log(N)H5SA/epsilon2)$ Exploring episodesの後、$N$の任意のタスクに対して$epsilon$-optimal Policyを見つける。また、$Omega(log (N)H2SA/epsilon2)$ lower boundを提供し、$N$への$log$依存性が避けられないことを示す。
論文参考訳（メタデータ） (2020-06-16T20:23:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。