論文の概要: Continuous Episodic Control
- arxiv url: http://arxiv.org/abs/2211.15183v1
- Date: Mon, 28 Nov 2022 09:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:01:16.171005
- Title: Continuous Episodic Control
- Title(参考訳): 連続エピソード制御
- Authors: Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat
- Abstract要約: 本稿では,連続行動空間の問題における逐次決定のための新しい非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Controlを紹介する。
その結果,提案手法は従来のモデルなしRLアルゴリズムやメモリ拡張RLアルゴリズムよりも高速に学習でき,長時間動作性能も良好であることがわかった。
- 参考スコア(独自算出の注目度): 7.021281655855703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-parametric episodic memory can be used to quickly latch onto high-reward
experience in reinforcement learning tasks. In contrast to parametric deep
reinforcement learning approaches, these methods only need to discover the
solution once, and may then repeatedly solve the task. However, episodic
control solutions are stored in discrete tables, and this approach has so far
only been applied to discrete action space problems. Therefore, this paper
introduces Continuous Episodic Control (CEC), a novel non-parametric episodic
memory algorithm for sequential decision making in problems with a continuous
action space. Results on several sparse-reward continuous control environments
show that our proposed method learns faster than state-of-the-art model-free RL
and memory-augmented RL algorithms, while maintaining good long-run performance
as well. In short, CEC can be a fast approach for learning in continuous
control tasks, and a useful addition to parametric RL methods in a hybrid
approach as well.
- Abstract(参考訳): 非パラメトリックエピソディックメモリは、強化学習タスクでハイリワード体験を素早くラッチするのに使うことができる。
パラメトリック深層強化学習法とは対照的に、これらの手法は解を一度だけ発見し、繰り返し解くだけでよい。
しかしながら、エピソディック制御解は離散テーブルに格納されており、このアプローチは離散作用空間問題にのみ適用されている。
そこで本研究では,連続行動空間の問題における逐次決定のための非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Control (CEC)を提案する。
いくつかのスパース・リワード連続制御環境において,提案手法は現状のモデルレスRLやメモリ拡張RLアルゴリズムよりも高速に学習でき,長期性能も良好である。
要するに、CECは継続的制御タスクにおける学習の高速なアプローチであり、ハイブリッドアプローチにおけるパラメトリックRLメソッドへの有用な追加である。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Continual Learning with Guarantees via Weight Interval Constraints [18.791232422083265]
ニューラルネットパラメータ空間の間隔制約を適用して、忘れを抑える新しいトレーニングパラダイムを導入する。
本稿では,モデルの連続的学習をパラメータ空間の連続的縮約として再構成することで,忘れることに制限を加える方法を示す。
論文 参考訳(メタデータ) (2022-06-16T08:28:37Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Learning Memory-Dependent Continuous Control from Demonstrations [13.063093054280948]
本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアに基づいて構築する。
いくつかのメモリ・クリティカルな連続制御タスクを含む実験は、環境との相互作用を著しく減少させる。
このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。
論文 参考訳(メタデータ) (2021-02-18T08:13:42Z) - Episodic Self-Imitation Learning with Hindsight [7.743320290728377]
エピソード自己像学習は、軌道選択モジュールと適応的損失関数を備えた新しい自己像アルゴリズムである。
更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入された。
エピソード自己イメージ学習は、連続的な行動空間を持つ実世界の問題に適用できる可能性がある。
論文 参考訳(メタデータ) (2020-11-26T20:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。