論文の概要: Procedural Content Generation: Better Benchmarks for Transfer
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.14780v1
- Date: Mon, 31 May 2021 08:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 04:03:50.511385
- Title: Procedural Content Generation: Better Benchmarks for Transfer
Reinforcement Learning
- Title(参考訳): 手続き的コンテンツ生成:転送強化学習のためのより良いベンチマーク
- Authors: Matthias M\"uller-Brockhausen, Mike Preuss, Aske Plaat
- Abstract要約: 強化学習の移行は、より早く学習し、より複雑な方法を学ぶことを約束する。
2018年からのディープラーニングの採用は驚くほど遅かったことに注意が必要だ。
ディープラーニングはTRLの最大の課題である一般化をまだ解決していない。
- 参考スコア(独自算出の注目度): 2.0196229393131726
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The idea of transfer in reinforcement learning (TRL) is intriguing: being
able to transfer knowledge from one problem to another problem without learning
everything from scratch. This promises quicker learning and learning more
complex methods. To gain an insight into the field and to detect emerging
trends, we performed a database search. We note a surprisingly late adoption of
deep learning that starts in 2018. The introduction of deep learning has not
yet solved the greatest challenge of TRL: generalization. Transfer between
different domains works well when domains have strong similarities (e.g.
MountainCar to Cartpole), and most TRL publications focus on different tasks
within the same domain that have few differences. Most TRL applications we
encountered compare their improvements against self-defined baselines, and the
field is still missing unified benchmarks. We consider this to be a
disappointing situation. For the future, we note that: (1) A clear measure of
task similarity is needed. (2) Generalization needs to improve. Promising
approaches merge deep learning with planning via MCTS or introduce memory
through LSTMs. (3) The lack of benchmarking tools will be remedied to enable
meaningful comparison and measure progress. Already Alchemy and Meta-World are
emerging as interesting benchmark suites. We note that another development, the
increase in procedural content generation (PCG), can improve both benchmarking
and generalization in TRL.
- Abstract(参考訳): 強化学習(TRL)における伝達というアイデアは、知識を1つの問題から別の問題に、すべてをスクラッチから学ばずに移行できるという、興味深いものです。
これにより、より迅速な学習とより複雑な方法の学習が可能になる。
この分野の洞察を得て,新たなトレンドを検出するために,データベース検索を行った。
2018年からのディープラーニングの採用は驚くほど遅くなっている。
ディープラーニングの導入は、trlの最大の課題である一般化をまだ解決していない。
異なるドメイン間の転送は、ドメインが強い類似性(例えば、)を持つときにうまく機能する。
MountainCar to Cartpole)とほとんどのTRL出版物は、ほとんど違いのない同じドメイン内の異なるタスクに焦点を当てている。
私たちが遭遇したほとんどのtrlアプリケーションは、これらの改善を自己定義ベースラインと比較します。
これは残念な状況だと考えている。
将来的には、(1)タスクの類似性を明確に測定する必要があります。
2) 一般化は改善する必要がある。
Promisingアプローチは、MCTS経由の計画とディープラーニングを統合するか、LSTM経由でメモリを導入する。
(3) ベンチマークツールの欠如は、有意義な比較と進捗測定を可能にするために改善される。
AlchemyとMeta-Worldはすでに興味深いベンチマークスイートとして登場しています。
また,プロセスコンテンツ生成(pcg)の増加は,trlのベンチマークと一般化の両方を改善する可能性がある。
関連論文リスト
- AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers [28.927809804613215]
我々はTransformerベースの(コンテキスト内での)メタRLの最近の進歩の上に構築する。
エージェントのアクターと批評家の目的の両方を分類項に変換する、単純でスケーラブルなソリューションを評価する。
この設計は、明示的なタスクラベルを使わずに、オンラインマルチタスク適応とメモリ問題に大きな進歩をもたらす。
論文 参考訳(メタデータ) (2024-11-17T22:25:40Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - A Taxonomy of Similarity Metrics for Markov Decision Processes [62.997667081978825]
近年、伝達学習は強化学習(RL)アルゴリズムをより効率的にすることに成功した。
本稿では,これらの指標を分類し,これまでに提案されている類似性の定義を分析する。
論文 参考訳(メタデータ) (2021-03-08T12:36:42Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning [39.477038093585726]
深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。
近年,RL剤の試料効率と一般化が向上することが示されている。
エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
論文 参考訳(メタデータ) (2020-06-23T09:50:22Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。