論文の概要: Human-Inspired Framework to Accelerate Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.08115v1
- Date: Tue, 28 Feb 2023 13:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-19 11:38:22.017705
- Title: Human-Inspired Framework to Accelerate Reinforcement Learning
- Title(参考訳): 強化学習を加速するヒューマンインスパイアフレームワーク
- Authors: Ali Beikmohammadi and Sindri Magn\'usson
- Abstract要約: 本稿では,難解なRLタスクの高速探索と学習を容易にする,人間に触発された新しいフレームワークを提案する。
提案手法では事前学習を必要とせず, より単純なタスクの学習は1回だけ行う。
実験により,RL学習アルゴリズムのサンプル効率向上のためのフレームワークの有効性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While deep reinforcement learning (RL) is becoming an integral part of good
decision-making in data science, it is still plagued with sample inefficiency.
This can be challenging when applying deep-RL in real-world environments where
physical interactions are expensive and can risk system safety. To improve the
sample efficiency of RL algorithms, this paper proposes a novel human-inspired
framework that facilitates fast exploration and learning for difficult RL
tasks. The main idea is to first provide the learning agent with simpler but
similar tasks that gradually grow in difficulty and progress toward the main
task. The proposed method requires no pre-training phase. Specifically, the
learning of simpler tasks is only done for one iteration. The generated
knowledge could be used by any transfer learning, including value transfer and
policy transfer, to reduce the sample complexity while not adding to the
computational complexity. So, it can be applied to any goal, environment, and
reinforcement learning algorithm - both value-based methods and policy-based
methods and both tabular methods and deep-RL methods. We have evaluated our
proposed framework on both a simple Random Walk for illustration purposes and
on more challenging optimal control problems with constraint. The experiments
show the good performance of our proposed framework in improving the sample
efficiency of RL-learning algorithms, especially when the main task is
difficult.
- Abstract(参考訳): 深層強化学習(RL)はデータサイエンスにおける優れた意思決定の不可欠な部分となっているが、それでもサンプルの非効率さに悩まされている。
物理的相互作用が高価であり、システムの安全性を危険にさらす現実世界環境で、ディープRLを適用する場合、これは難しい。
本稿では,RLアルゴリズムのサンプル効率を向上させるために,困難なRLタスクの高速探索と学習を容易にする,人間に触発された新しいフレームワークを提案する。
主なアイデアは、まず学習エージェントに、主タスクへの難易度と進捗が徐々に増加する、よりシンプルで類似したタスクを提供することである。
提案手法では事前学習は不要である。
具体的には、単純なタスクの学習は1回のイテレーションでのみ行われる。
生成された知識は、値転送やポリシー転送を含む任意の伝達学習によって、計算複雑性を加味せずにサンプルの複雑さを減らし得る。
したがって、どんな目標、環境、強化学習アルゴリズムにも適用できます — 値ベースの方法とポリシーベースの方法、表形式の方法とディープRLメソッドの両方です。
提案手法は,図示目的のための単純なランダムウォークと,制約を伴うより困難な最適制御問題の両方について評価した。
実験により,RL学習アルゴリズムのサンプル効率向上,特に主課題が困難な場合,提案手法の有効性が示された。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via
Self-Supervised Representation Learning for Robotic Manipulation [0.850206009406913]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - The Cost of Learning: Efficiency vs. Efficacy of Learning-Based RRM for
6G [10.28841351455586]
深層強化学習(DRL)は、複雑なネットワークにおける効率的な資源管理戦略を自動学習するための貴重なソリューションとなっている。
多くのシナリオでは、学習タスクはクラウドで実行され、経験サンプルはエッジノードまたはユーザによって直接生成される。
これにより、効果的な戦略に向けて収束をスピードアップする必要性と、学習サンプルの送信にリソースの割り当てが必要となることの間に摩擦が生じます。
本稿では,学習とデータプレーン間の動的バランス戦略を提案する。これにより,集中型学習エージェントは,効率的な資源配分戦略に迅速に収束することができる。
論文 参考訳(メタデータ) (2022-11-30T11:26:01Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文 参考訳(メタデータ) (2022-03-21T10:06:16Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。