論文の概要: Neural Episodic Control with State Abstraction
- arxiv url: http://arxiv.org/abs/2301.11490v1
- Date: Fri, 27 Jan 2023 01:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:39:09.093631
- Title: Neural Episodic Control with State Abstraction
- Title(参考訳): 状態抽象化によるニューラルエピソード制御
- Authors: Zhuo Li, Derui Zhu, Yujing Hu, Xiaofei Xie, Lei Ma, Yan Zheng, Yan
Song, Yingfeng Chen, Jianjun Zhao
- Abstract要約: 既存のDeep Reinforcement Learning (DRL)アルゴリズムは、サンプルの非効率に悩まされている。
この研究は、状態抽象化を伴うニューラルエピソード制御(NECSA)を導入している。
オープンAI体育ドメインにおける MuJoCo タスクと Atari タスクに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 38.95199070504417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Deep Reinforcement Learning (DRL) algorithms suffer from sample
inefficiency. Generally, episodic control-based approaches are solutions that
leverage highly-rewarded past experiences to improve sample efficiency of DRL
algorithms. However, previous episodic control-based approaches fail to utilize
the latent information from the historical behaviors (e.g., state transitions,
topological similarities, etc.) and lack scalability during DRL training. This
work introduces Neural Episodic Control with State Abstraction (NECSA), a
simple but effective state abstraction-based episodic control containing a more
comprehensive episodic memory, a novel state evaluation, and a multi-step state
analysis. We evaluate our approach to the MuJoCo and Atari tasks in OpenAI gym
domains. The experimental results indicate that NECSA achieves higher sample
efficiency than the state-of-the-art episodic control-based approaches. Our
data and code are available at the project
website\footnote{\url{https://sites.google.com/view/drl-necsa}}.
- Abstract(参考訳): 既存の深層強化学習(drl)アルゴリズムはサンプル非効率に苦しむ。
一般に、エピソード制御に基づくアプローチは、DRLアルゴリズムのサンプル効率を改善するために、高度に回帰した過去の経験を活用するソリューションである。
しかし、従来のエピソード制御に基づくアプローチでは、過去の行動(状態遷移、トポロジカル類似性など)の潜伏情報を利用することができず、DRLトレーニング中にスケーラビリティが欠如している。
本研究では、より包括的なエピソードメモリ、新しい状態評価、多段階状態解析を含む、シンプルだが効果的な状態抽象化に基づくエピソード制御であるNeural Episodic Control with State Abstraction(NECSA)を紹介する。
オープンAI体育ドメインにおける MuJoCo タスクと Atari タスクに対するアプローチを評価した。
実験の結果,necsaは最先端のエピソディクス制御系アプローチよりも高いサンプル効率を達成していることがわかった。
私たちのデータとコードは、プロジェクトwebサイト\footnote{\url{https://sites.google.com/view/drl-necsa}}で利用可能です。
関連論文リスト
- Episodic Reinforcement Learning with Expanded State-reward Space [1.479675621064679]
本稿では, 入力として使用する拡張状態と, トレーニングで使用する拡張報酬が, 履歴情報と現在の情報の両方を含むような, 拡張された状態逆空間を持つ効率的なECベースのDRLフレームワークを提案する。
提案手法は,検索情報の完全活用と時間差分(TD)損失による状態値の評価を同時に行うことができる。
論文 参考訳(メタデータ) (2024-01-19T06:14:36Z) - Try with Simpler -- An Evaluation of Improved Principal Component
Analysis in Log-based Anomaly Detection [18.328245109223964]
ディープラーニング(DL)は、ログベースの異常検出の強化への関心を喚起している。
従来の機械学習とデータマイニング技術は、DLよりもデータ依存が少なく、効率的だが効果は低い。
従来の手法である教師なしPCA(Principal Component Analysis)を軽量なセマンティックなログ表現を取り入れて最適化する。
論文 参考訳(メタデータ) (2023-08-24T07:22:29Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Improved Exploring Starts by Kernel Density Estimation-Based State-Space
Coverage Acceleration in Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、制御工学における一般的な研究テーマである。
RLコントローラは、制御されたシステムと直接対話するために訓練され、データ駆動およびパフォーマンス指向のソリューションをレンダリングする。
DESSCAはカーネル密度推定に基づく状態空間カバレッジアクセラレーションである。
論文 参考訳(メタデータ) (2021-05-19T08:36:26Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。