論文の概要: Derivative-Free Reinforcement Learning: A Review
- arxiv url: http://arxiv.org/abs/2102.05710v1
- Date: Wed, 10 Feb 2021 19:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:24:51.301263
- Title: Derivative-Free Reinforcement Learning: A Review
- Title(参考訳): Derivative-Free Reinforcement Learning: レビュー
- Authors: Hong Qian and Yang Yu
- Abstract要約: 強化学習とは、未知の環境で最高のシーケンシャルな決定を行うエージェントモデルを学習することである。
一方、微分自由最適化は洗練された問題を解くことができる。
本稿では, パラメータ更新, モデル選択, 探索, 並列/分散手法などの側面において, 微分自由強化学習の手法を概説する。
- 参考スコア(独自算出の注目度): 11.568151821073952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is about learning agent models that make the best
sequential decisions in unknown environments. In an unknown environment, the
agent needs to explore the environment while exploiting the collected
information, which usually forms a sophisticated problem to solve.
Derivative-free optimization, meanwhile, is capable of solving sophisticated
problems. It commonly uses a sampling-and-updating framework to iteratively
improve the solution, where exploration and exploitation are also needed to be
well balanced. Therefore, derivative-free optimization deals with a similar
core issue as reinforcement learning, and has been introduced in reinforcement
learning approaches, under the names of learning classifier systems and
neuroevolution/evolutionary reinforcement learning. Although such methods have
been developed for decades, recently, derivative-free reinforcement learning
exhibits attracting increasing attention. However, recent survey on this topic
is still lacking. In this article, we summarize methods of derivative-free
reinforcement learning to date, and organize the methods in aspects including
parameter updating, model selection, exploration, and parallel/distributed
methods. Moreover, we discuss some current limitations and possible future
directions, hoping that this article could bring more attentions to this topic
and serve as a catalyst for developing novel and efficient approaches.
- Abstract(参考訳): 強化学習とは、未知の環境で最良の連続的な決定を行うエージェントモデルを学ぶことです。
未知の環境では、エージェントは収集された情報を悪用しながら環境を探索する必要があります。
一方、デリバティブフリー最適化は高度な問題を解決することができる。
一般的にはサンプリング・アンド・アップディングのフレームワークを使用して、ソリューションを反復的に改善する。
したがって、デリバティブフリー最適化は強化学習と似た核となる問題に対処し、学習分類システムと神経進化/進化強化学習の名で強化学習アプローチに導入されている。
このような手法は数十年にわたって開発されてきたが、近年ではデリバティブフリーの強化学習が注目を集めている。
しかし、このトピックに関する最近の調査はまだ欠けています。
本稿では, パラメータ更新, モデル選択, 探索, 並列/分散手法などの側面において, 微分自由強化学習の手法を整理し, 手法を整理する。
さらに,現在の限界と今後の方向性についても論じるとともに,本論文がより注目され,新規かつ効率的なアプローチを開発する上での触媒となることを期待する。
関連論文リスト
- Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Efficient Continual Learning Ensembles in Neural Network Subspaces [57.491318168337756]
そこで本研究では,アンサンブルモデルを用いることで,連続的な性能向上を図った。
我々は、計算的に有利であり、最先端の連続学習アルゴリズムより優れている新しい手法を導出する。
論文 参考訳(メタデータ) (2022-02-20T14:30:39Z) - Mixture-of-Variational-Experts for Continual Learning [0.0]
学習と忘れのトレードオフを促進する最適原理を提案する。
我々はMixture-of-Variational-Experts (MoVE)と呼ばれる連続学習のためのニューラルネットワーク層を提案する。
MNISTおよびCIFAR10データセットの変種に関する実験は、MoVE層の競合性能を示す。
論文 参考訳(メタデータ) (2021-10-25T06:32:06Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Offline Reinforcement Learning: Tutorial, Review, and Perspectives on
Open Problems [108.81683598693539]
オフラインの強化学習アルゴリズムは、巨大なデータセットを強力な意思決定エンジンにできるという、大きな約束を持っています。
我々は,これらの課題,特に近代的な深層強化学習手法の文脈において,読者にこれらの課題を理解することを目的としている。
論文 参考訳(メタデータ) (2020-05-04T17:00:15Z) - A Survey of Reinforcement Learning Techniques: Strategies, Recent
Development, and Future Directions [0.0]
強化学習は任意の環境で行動を取るシステムに影響を与える。
本稿では,課題,最近の最先端技術の発展,今後の方向性など,さまざまな側面に焦点をあてる。
論文 参考訳(メタデータ) (2020-01-19T23:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。