論文の概要: A Decentralized Policy Gradient Approach to Multi-task Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2006.04338v2
- Date: Fri, 28 May 2021 01:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:23:56.094790
- Title: A Decentralized Policy Gradient Approach to Multi-task Reinforcement
Learning
- Title(参考訳): マルチタスク強化学習のための分散型政策勾配アプローチ
- Authors: Sihan Zeng, Aqeel Anwar, Thinh Doan, Arijit Raychowdhury, Justin
Romberg
- Abstract要約: マルチタスク強化学習問題を解決するためのフレームワークを開発する。
目標は、異なる環境で効果的に機能する共通ポリシーを学ぶことである。
MTRLの2つの基本的な課題に注目する。
- 参考スコア(独自算出の注目度): 13.733491423871383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a mathematical framework for solving multi-task reinforcement
learning (MTRL) problems based on a type of policy gradient method. The goal in
MTRL is to learn a common policy that operates effectively in different
environments; these environments have similar (or overlapping) state spaces,
but have different rewards and dynamics. We highlight two fundamental
challenges in MTRL that are not present in its single task counterpart, and
illustrate them with simple examples. We then develop a decentralized
entropy-regularized policy gradient method for solving the MTRL problem, and
study its finite-time convergence rate. We demonstrate the effectiveness of the
proposed method using a series of numerical experiments. These experiments
range from small-scale "GridWorld" problems that readily demonstrate the
trade-offs involved in multi-task learning to large-scale problems, where
common policies are learned to navigate an airborne drone in multiple
(simulated) environments.
- Abstract(参考訳): 本研究では,マルチタスク強化学習(mtrl)問題を解くための数学的枠組みを,ポリシー勾配法を用いて開発する。
MTRLの目標は、異なる環境で効果的に動作する共通のポリシーを学ぶことである。
MTRLの2つの基本的な課題は、その1つのタスクに存在しないもので、簡単な例で説明できる。
次に、MTRL問題を解くための分散エントロピー規則化ポリシー勾配法を開発し、その有限時間収束率について検討する。
本稿では,提案手法の有効性を数値実験により実証する。
これらの実験は、マルチタスク学習に関わるトレードオフを簡単に実証する小規模の"グリッドワールド"問題から、複数の(シミュレーションされた)環境で空飛ぶドローンをナビゲートする共通のポリシーを学ぶ大規模問題まで、幅広い。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Consolidation via Policy Information Regularization in Deep RL for
Multi-Agent Games [21.46148507577606]
本稿では,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)強化学習アルゴリズムにおいて,学習ポリシの複雑さに関する情報理論的制約を導入する。
多エージェント協調型・競争型タスクの実験結果から,これらの環境における学習性能向上のための能力制限型アプローチがよい候補であることが示された。
論文 参考訳(メタデータ) (2020-11-23T16:28:27Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。