論文の概要: Reinforcement Learning with Subspaces using Free Energy Paradigm
- arxiv url: http://arxiv.org/abs/2012.07091v1
- Date: Sun, 13 Dec 2020 16:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 15:52:28.221786
- Title: Reinforcement Learning with Subspaces using Free Energy Paradigm
- Title(参考訳): 自由エネルギーパラダイムを用いた部分空間による強化学習
- Authors: Milad Ghorbani, Reshad Hosseini, Seyed Pooya Shariatpanahi, Majid Nili
Ahmadabadi
- Abstract要約: 大規模問題では、標準強化学習アルゴリズムは学習速度が遅い。
サブスペースの選択と状態空間のポリシーをサブスペースに統合する自由エネルギー最小化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.127688327434283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In large-scale problems, standard reinforcement learning algorithms suffer
from slow learning speed. In this paper, we follow the framework of using
subspaces to tackle this problem. We propose a free-energy minimization
framework for selecting the subspaces and integrate the policy of the
state-space into the subspaces. Our proposed free-energy minimization framework
rests upon Thompson sampling policy and behavioral policy of subspaces and the
state-space. It is therefore applicable to a variety of tasks, discrete or
continuous state space, model-free and model-based tasks. Through a set of
experiments, we show that this general framework highly improves the learning
speed. We also provide a convergence proof.
- Abstract(参考訳): 大規模問題では、標準強化学習アルゴリズムは学習速度が遅い。
本稿では,サブスペースを用いてこの問題に対処する枠組みについて述べる。
サブスペースの選択と状態空間のポリシーをサブスペースに統合する自由エネルギー最小化フレームワークを提案する。
提案する自由エネルギー最小化フレームワークは,部分空間と状態空間のトンプソンサンプリングポリシーと行動ポリシーに依拠する。
したがって、様々なタスク、離散状態空間または連続状態空間、モデルフリーおよびモデルベースタスクに適用できる。
一連の実験を通じて,この汎用フレームワークが学習速度を高度に向上することを示す。
また、コンバージェンス証明も提供します。
関連論文リスト
- Neural Modes: Self-supervised Learning of Nonlinear Modal Subspaces [24.15874821482212]
実時間シミュレーションのための物理に基づく部分空間学習のための自己教師型アプローチを提案する。
本手法は, 物理平衡制約を反映した学習部分空間を導出し, 従来の手法の過度に適合する問題を解き, 解釈可能な潜在空間パラメータを提供することを示す。
論文 参考訳(メタデータ) (2024-04-26T14:12:37Z) - Reconciling Spatial and Temporal Abstractions for Goal Representation [0.4813333335683418]
ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:33:30Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer [71.44215606325005]
本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。
すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z) - Plan-Space State Embeddings for Improved Reinforcement Learning [12.340412143459869]
提案手法は,計画や他の形態の実証から状態埋め込みを学習するための新しい手法である。
これらの埋め込みは、強化学習問題におけるロボット状態の強化としてどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-04-30T03:38:14Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Representation of Reinforcement Learning Policies in Reproducing Kernel
Hilbert Spaces [72.5149277196468]
このフレームワークは、カーネルヒルベルト空間(RKHS)上のポリシーの低次元埋め込みを見つけることを含む。
我々は、再建された政策の復活を期待して、強い理論的保証を得る。
その結果、低次元空間にロバストに埋め込むことができる一方で、組込みポリシはリターンの低下をほとんど起こさないことを確認した。
論文 参考訳(メタデータ) (2020-02-07T15:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。