論文の概要: Adaptable Automation with Modular Deep Reinforcement Learning and Policy
Transfer
- arxiv url: http://arxiv.org/abs/2012.01934v1
- Date: Fri, 27 Nov 2020 03:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 01:56:36.562272
- Title: Adaptable Automation with Modular Deep Reinforcement Learning and Policy
Transfer
- Title(参考訳): モジュール型深層強化学習と政策伝達による適応型自動化
- Authors: Zohreh Raziei, Mohsen Moghaddam
- Abstract要約: 本稿では,タスクのモジュール化と伝達学習の概念に基づいて,ハイパーアクタソフトアクタクリティカル(HASAC)RLフレームワークを開発し,検証する。
HASACフレームワークは、新しい仮想ロボット操作ベンチマークであるMeta-Worldでテストされている。
数値実験により、HASACは、報酬値、成功率、タスク完了時間の観点から、最先端の深部RLアルゴリズムよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.299945169799795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep Reinforcement Learning (RL) have created
unprecedented opportunities for intelligent automation, where a machine can
autonomously learn an optimal policy for performing a given task. However,
current deep RL algorithms predominantly specialize in a narrow range of tasks,
are sample inefficient, and lack sufficient stability, which in turn hinder
their industrial adoption. This article tackles this limitation by developing
and testing a Hyper-Actor Soft Actor-Critic (HASAC) RL framework based on the
notions of task modularization and transfer learning. The goal of the proposed
HASAC is to enhance the adaptability of an agent to new tasks by transferring
the learned policies of former tasks to the new task via a "hyper-actor". The
HASAC framework is tested on a new virtual robotic manipulation benchmark,
Meta-World. Numerical experiments show superior performance by HASAC over
state-of-the-art deep RL algorithms in terms of reward value, success rate, and
task completion time.
- Abstract(参考訳): 深層強化学習(rl)の最近の進歩は、機械が所定のタスクを実行するための最適なポリシーを自律的に学習できるインテリジェントオートメーションにとって、前例のない機会を生み出した。
しかし、現在のディープrlアルゴリズムは、主に狭い範囲のタスクに特化しており、サンプル非効率であり、十分な安定性を欠いているため、産業的な採用を妨げている。
本稿では,タスクのモジュール化と伝達学習の概念に基づいて,ハイパーアクタソフトアクタクリティカル(HASAC)RLフレームワークを開発し,テストすることによって,この制限に対処する。
HASACの目標は、エージェントが学習したタスクのポリシーを「ハイパーアクター」を介して新しいタスクに転送することで、新しいタスクへの適応性を高めることである。
HASACフレームワークは、新しい仮想ロボット操作ベンチマークであるMeta-Worldでテストされている。
数値実験により、HASACは、報酬値、成功率、タスク完了時間の観点から、最先端の深部RLアルゴリズムよりも優れた性能を示す。
関連論文リスト
- Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Enhancing Robotic Manipulation: Harnessing the Power of Multi-Task
Reinforcement Learning and Single Life Reinforcement Learning in Meta-World [0.0]
この研究プロジェクトは、ロボットアームがメタワールド環境内で7つの異なるタスクを実行できるようにする。
トレーニングされたモデルは、シングルライフRLアルゴリズムの事前データのソースとして機能する。
アブレーション研究では、MT-QWALEが最終ゴール位置を隠した後でも、わずかに多くのステップでタスクを完了できることが示されている。
論文 参考訳(メタデータ) (2023-10-23T06:35:44Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文 参考訳(メタデータ) (2022-03-21T10:06:16Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。