論文の概要: Human-Inspired Framework to Accelerate Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.08115v1
- Date: Tue, 28 Feb 2023 13:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-19 11:38:22.017705
- Title: Human-Inspired Framework to Accelerate Reinforcement Learning
- Title(参考訳): 強化学習を加速するヒューマンインスパイアフレームワーク
- Authors: Ali Beikmohammadi and Sindri Magn\'usson
- Abstract要約: 本稿では,難解なRLタスクの高速探索と学習を容易にする,人間に触発された新しいフレームワークを提案する。
提案手法では事前学習を必要とせず, より単純なタスクの学習は1回だけ行う。
実験により,RL学習アルゴリズムのサンプル効率向上のためのフレームワークの有効性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While deep reinforcement learning (RL) is becoming an integral part of good
decision-making in data science, it is still plagued with sample inefficiency.
This can be challenging when applying deep-RL in real-world environments where
physical interactions are expensive and can risk system safety. To improve the
sample efficiency of RL algorithms, this paper proposes a novel human-inspired
framework that facilitates fast exploration and learning for difficult RL
tasks. The main idea is to first provide the learning agent with simpler but
similar tasks that gradually grow in difficulty and progress toward the main
task. The proposed method requires no pre-training phase. Specifically, the
learning of simpler tasks is only done for one iteration. The generated
knowledge could be used by any transfer learning, including value transfer and
policy transfer, to reduce the sample complexity while not adding to the
computational complexity. So, it can be applied to any goal, environment, and
reinforcement learning algorithm - both value-based methods and policy-based
methods and both tabular methods and deep-RL methods. We have evaluated our
proposed framework on both a simple Random Walk for illustration purposes and
on more challenging optimal control problems with constraint. The experiments
show the good performance of our proposed framework in improving the sample
efficiency of RL-learning algorithms, especially when the main task is
difficult.
- Abstract(参考訳): 深層強化学習(RL)はデータサイエンスにおける優れた意思決定の不可欠な部分となっているが、それでもサンプルの非効率さに悩まされている。
物理的相互作用が高価であり、システムの安全性を危険にさらす現実世界環境で、ディープRLを適用する場合、これは難しい。
本稿では,RLアルゴリズムのサンプル効率を向上させるために,困難なRLタスクの高速探索と学習を容易にする,人間に触発された新しいフレームワークを提案する。
主なアイデアは、まず学習エージェントに、主タスクへの難易度と進捗が徐々に増加する、よりシンプルで類似したタスクを提供することである。
提案手法では事前学習は不要である。
具体的には、単純なタスクの学習は1回のイテレーションでのみ行われる。
生成された知識は、値転送やポリシー転送を含む任意の伝達学習によって、計算複雑性を加味せずにサンプルの複雑さを減らし得る。
したがって、どんな目標、環境、強化学習アルゴリズムにも適用できます — 値ベースの方法とポリシーベースの方法、表形式の方法とディープRLメソッドの両方です。
提案手法は,図示目的のための単純なランダムウォークと,制約を伴うより困難な最適制御問題の両方について評価した。
実験により,RL学習アルゴリズムのサンプル効率向上,特に主課題が困難な場合,提案手法の有効性が示された。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - The Cost of Learning: Efficiency vs. Efficacy of Learning-Based RRM for
6G [10.28841351455586]
深層強化学習(DRL)は、複雑なネットワークにおける効率的な資源管理戦略を自動学習するための貴重なソリューションとなっている。
多くのシナリオでは、学習タスクはクラウドで実行され、経験サンプルはエッジノードまたはユーザによって直接生成される。
これにより、効果的な戦略に向けて収束をスピードアップする必要性と、学習サンプルの送信にリソースの割り当てが必要となることの間に摩擦が生じます。
本稿では,学習とデータプレーン間の動的バランス戦略を提案する。これにより,集中型学習エージェントは,効率的な資源配分戦略に迅速に収束することができる。
論文 参考訳(メタデータ) (2022-11-30T11:26:01Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文 参考訳(メタデータ) (2022-03-21T10:06:16Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。