論文の概要: Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling
- arxiv url: http://arxiv.org/abs/2203.10844v1
- Date: Mon, 21 Mar 2022 10:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:41:13.775437
- Title: Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling
- Title(参考訳): 重要サンプリングを用いたマルチタスクによるリーン進化強化学習
- Authors: Nick Zhang, Abhishek Gupta, Zefeng Chen, and Yew-Soon Ong
- Abstract要約: 本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
- 参考スコア(独自算出の注目度): 20.9680985132322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies have shown evolution strategies (ES) to be a promising approach for
reinforcement learning (RL) with deep neural networks. However, the issue of
high sample complexity persists in applications of ES to deep RL. In this
paper, we address the shortcoming of today's methods via a novel
neuroevolutionary multitasking (NuEMT) algorithm, designed to transfer
information from a set of auxiliary tasks (of short episode length) to the
target (full length) RL task at hand. The artificially generated auxiliary
tasks allow an agent to update and quickly evaluate policies on shorter time
horizons. The evolved skills are then transferred to guide the longer and
harder task towards an optimal policy. We demonstrate that the NuEMT algorithm
achieves data-lean evolutionary RL, reducing expensive agent-environment
interaction data requirements. Our key algorithmic contribution in this setting
is to introduce, for the first time, a multitask information transfer mechanism
based on the statistical importance sampling technique. In addition, an
adaptive resource allocation strategy is utilized to assign computational
resources to auxiliary tasks based on their gleaned usefulness. Experiments on
a range of continuous control tasks from the OpenAI Gym confirm that our
proposed algorithm is efficient compared to recent ES baselines.
- Abstract(参考訳): 進化戦略(ES)は、深層ニューラルネットワークを用いた強化学習(RL)において有望なアプローチであることを示している。
しかし, 深部RLへのESの適用においては, 高サンプル複雑性の問題が持続する。
本稿では,新しいニューロ進化的マルチタスキング(NuEMT)アルゴリズムを用いて,現在の手法の欠点に対処する。
人工的に生成された補助タスクにより、エージェントはより短い時間軸でポリシーを更新、迅速に評価することができる。
進化したスキルは、より長く困難なタスクを最適な方針に導くために移される。
nuemtアルゴリズムがデータ-リーン進化rlを実現し、高価なエージェント-環境間インタラクションデータ要求を削減できることを実証する。
この設定における重要なアルゴリズム的貢献は,統計重要度サンプリング手法に基づくマルチタスク情報転送機構を初めて導入することである。
さらに、アダプティブなリソース割り当て戦略を用いて、計算資源をその有用性に基づいて補助的なタスクに割り当てる。
OpenAI Gymの一連の連続制御タスクの実験により、提案アルゴリズムは最近のESベースラインと比較して効率的であることを確認した。
関連論文リスト
- A Method for Fast Autonomy Transfer in Reinforcement Learning [3.8049020806504967]
本稿では、迅速な自律移行を容易にするために、新しい強化学習(RL)戦略を提案する。
大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが新しい設定に迅速に適応できるようにする。
論文 参考訳(メタデータ) (2024-07-29T23:48:07Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - An advantage based policy transfer algorithm for reinforcement learning
with metrics of transferability [6.660458629649826]
強化学習(Reinforcement Learning, RL)は, 複雑・高次元環境における逐次的意思決定を可能にする。
トランスファーRLアルゴリズムは、1つまたは複数のソース環境からターゲット環境への知識の転送に使用できる。
本稿では、固定されたドメイン環境に対する非政治アドバンテージベースのポリシー転送アルゴリズムであるAPT-RLを提案する。
論文 参考訳(メタデータ) (2023-11-12T04:25:53Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - The Cost of Learning: Efficiency vs. Efficacy of Learning-Based RRM for
6G [10.28841351455586]
深層強化学習(DRL)は、複雑なネットワークにおける効率的な資源管理戦略を自動学習するための貴重なソリューションとなっている。
多くのシナリオでは、学習タスクはクラウドで実行され、経験サンプルはエッジノードまたはユーザによって直接生成される。
これにより、効果的な戦略に向けて収束をスピードアップする必要性と、学習サンプルの送信にリソースの割り当てが必要となることの間に摩擦が生じます。
本稿では,学習とデータプレーン間の動的バランス戦略を提案する。これにより,集中型学習エージェントは,効率的な資源配分戦略に迅速に収束することができる。
論文 参考訳(メタデータ) (2022-11-30T11:26:01Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。