論文の概要: Derivative-Free Reinforcement Learning: A Review
- arxiv url: http://arxiv.org/abs/2102.05710v1
- Date: Wed, 10 Feb 2021 19:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:24:51.301263
- Title: Derivative-Free Reinforcement Learning: A Review
- Title(参考訳): Derivative-Free Reinforcement Learning: レビュー
- Authors: Hong Qian and Yang Yu
- Abstract要約: 強化学習とは、未知の環境で最高のシーケンシャルな決定を行うエージェントモデルを学習することである。
一方、微分自由最適化は洗練された問題を解くことができる。
本稿では, パラメータ更新, モデル選択, 探索, 並列/分散手法などの側面において, 微分自由強化学習の手法を概説する。
- 参考スコア(独自算出の注目度): 11.568151821073952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is about learning agent models that make the best
sequential decisions in unknown environments. In an unknown environment, the
agent needs to explore the environment while exploiting the collected
information, which usually forms a sophisticated problem to solve.
Derivative-free optimization, meanwhile, is capable of solving sophisticated
problems. It commonly uses a sampling-and-updating framework to iteratively
improve the solution, where exploration and exploitation are also needed to be
well balanced. Therefore, derivative-free optimization deals with a similar
core issue as reinforcement learning, and has been introduced in reinforcement
learning approaches, under the names of learning classifier systems and
neuroevolution/evolutionary reinforcement learning. Although such methods have
been developed for decades, recently, derivative-free reinforcement learning
exhibits attracting increasing attention. However, recent survey on this topic
is still lacking. In this article, we summarize methods of derivative-free
reinforcement learning to date, and organize the methods in aspects including
parameter updating, model selection, exploration, and parallel/distributed
methods. Moreover, we discuss some current limitations and possible future
directions, hoping that this article could bring more attentions to this topic
and serve as a catalyst for developing novel and efficient approaches.
- Abstract(参考訳): 強化学習とは、未知の環境で最良の連続的な決定を行うエージェントモデルを学ぶことです。
未知の環境では、エージェントは収集された情報を悪用しながら環境を探索する必要があります。
一方、デリバティブフリー最適化は高度な問題を解決することができる。
一般的にはサンプリング・アンド・アップディングのフレームワークを使用して、ソリューションを反復的に改善する。
したがって、デリバティブフリー最適化は強化学習と似た核となる問題に対処し、学習分類システムと神経進化/進化強化学習の名で強化学習アプローチに導入されている。
このような手法は数十年にわたって開発されてきたが、近年ではデリバティブフリーの強化学習が注目を集めている。
しかし、このトピックに関する最近の調査はまだ欠けています。
本稿では, パラメータ更新, モデル選択, 探索, 並列/分散手法などの側面において, 微分自由強化学習の手法を整理し, 手法を整理する。
さらに,現在の限界と今後の方向性についても論じるとともに,本論文がより注目され,新規かつ効率的なアプローチを開発する上での触媒となることを期待する。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Learning in Hybrid Active Inference Models [0.8749675983608172]
本稿では,高レベル離散型アクティブ・推論・プランナを低レベル連続型アクティブ・推論・コントローラの上に置く階層型ハイブリッド・アクティブ・推論・エージェントを提案する。
我々は、意味のある離散表現のエンドツーエンド学習を実装する線形力学系をリカレントに切り替えるという最近の研究を活用している。
当社のモデルを,探索と計画成功による高速なシステム識別を実証し,スパースな連続マウンテンカータスクに適用する。
論文 参考訳(メタデータ) (2024-09-02T08:41:45Z) - A Unified and General Framework for Continual Learning [58.72671755989431]
継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分布から学ぶことに焦点を当てている。
正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。
本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-03-20T02:21:44Z) - Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文 参考訳(メタデータ) (2024-02-22T11:06:07Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - Mixture-of-Variational-Experts for Continual Learning [0.0]
学習と忘れのトレードオフを促進する最適原理を提案する。
我々はMixture-of-Variational-Experts (MoVE)と呼ばれる連続学習のためのニューラルネットワーク層を提案する。
MNISTおよびCIFAR10データセットの変種に関する実験は、MoVE層の競合性能を示す。
論文 参考訳(メタデータ) (2021-10-25T06:32:06Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Offline Reinforcement Learning: Tutorial, Review, and Perspectives on
Open Problems [108.81683598693539]
オフラインの強化学習アルゴリズムは、巨大なデータセットを強力な意思決定エンジンにできるという、大きな約束を持っています。
我々は,これらの課題,特に近代的な深層強化学習手法の文脈において,読者にこれらの課題を理解することを目的としている。
論文 参考訳(メタデータ) (2020-05-04T17:00:15Z) - A Survey of Reinforcement Learning Techniques: Strategies, Recent
Development, and Future Directions [0.0]
強化学習は任意の環境で行動を取るシステムに影響を与える。
本稿では,課題,最近の最先端技術の発展,今後の方向性など,さまざまな側面に焦点をあてる。
論文 参考訳(メタデータ) (2020-01-19T23:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。