論文の概要: Human-Inspired Framework to Accelerate Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.08115v2
- Date: Thu, 11 Jan 2024 14:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 04:20:22.375734
- Title: Human-Inspired Framework to Accelerate Reinforcement Learning
- Title(参考訳): 強化学習を加速するヒューマンインスパイアフレームワーク
- Authors: Ali Beikmohammadi and Sindri Magn\'usson
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.6317061277457001
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) is crucial for data science decision-making but
suffers from sample inefficiency, particularly in real-world scenarios with
costly physical interactions. This paper introduces a novel human-inspired
framework to enhance RL algorithm sample efficiency. It achieves this by
initially exposing the learning agent to simpler tasks that progressively
increase in complexity, ultimately leading to the main task. This method
requires no pre-training and involves learning simpler tasks for just one
iteration. The resulting knowledge can facilitate various transfer learning
approaches, such as value and policy transfer, without increasing computational
complexity. It can be applied across different goals, environments, and RL
algorithms, including value-based, policy-based, tabular, and deep RL methods.
Experimental evaluations demonstrate the framework's effectiveness in enhancing
sample efficiency, especially in challenging main tasks, demonstrated through
both a simple Random Walk and more complex optimal control problems with
constraints.
- Abstract(参考訳): データサイエンスの意思決定には強化学習(rl)が不可欠であるが、特に高価な物理的相互作用を伴う実世界のシナリオではサンプル非効率に苦しむ。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
最初は学習エージェントをより単純なタスクに公開し、複雑さを徐々に増やし、最終的にメインタスクへと繋がる。
この方法は事前トレーニングを必要とせず、1回のイテレーションで単純なタスクを学習する。
結果として得られる知識は、計算の複雑さを増すことなく、価値や政策の伝達といった様々なトランスファー学習アプローチを促進することができる。
これは、値ベース、ポリシーベース、表、深層RLメソッドを含む、さまざまな目標、環境、RLアルゴリズムに適用できる。
実験的な評価は、単純なランダムウォークと制約を伴うより複雑な最適制御問題の両方を通して、サンプル効率を高めるためのフレームワークの有効性を示す。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - The Cost of Learning: Efficiency vs. Efficacy of Learning-Based RRM for
6G [10.28841351455586]
深層強化学習(DRL)は、複雑なネットワークにおける効率的な資源管理戦略を自動学習するための貴重なソリューションとなっている。
多くのシナリオでは、学習タスクはクラウドで実行され、経験サンプルはエッジノードまたはユーザによって直接生成される。
これにより、効果的な戦略に向けて収束をスピードアップする必要性と、学習サンプルの送信にリソースの割り当てが必要となることの間に摩擦が生じます。
本稿では,学習とデータプレーン間の動的バランス戦略を提案する。これにより,集中型学習エージェントは,効率的な資源配分戦略に迅速に収束することができる。
論文 参考訳(メタデータ) (2022-11-30T11:26:01Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文 参考訳(メタデータ) (2022-03-21T10:06:16Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。