論文の概要: Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders
- arxiv url: http://arxiv.org/abs/2210.01231v1
- Date: Mon, 3 Oct 2022 21:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:32:59.680651
- Title: Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders
- Title(参考訳): 深層q学習と変分オートエンコーダを用いた解釈可能なオプション発見
- Authors: Per-Arne Andersen and Ole-Christoffer Granmo and Morten Goodwin
- Abstract要約: DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 9.432068833600884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (RL) is unquestionably a robust framework to
train autonomous agents in a wide variety of disciplines. However, traditional
deep and shallow model-free RL algorithms suffer from low sample efficiency and
inadequate generalization for sparse state spaces. The options framework with
temporal abstractions is perhaps the most promising method to solve these
problems, but it still has noticeable shortcomings. It only guarantees local
convergence, and it is challenging to automate initiation and termination
conditions, which in practice are commonly hand-crafted.
Our proposal, the Deep Variational Q-Network (DVQN), combines deep
generative- and reinforcement learning. The algorithm finds good policies from
a Gaussian distributed latent-space, which is especially useful for defining
options. The DVQN algorithm uses MSE with KL-divergence as regularization,
combined with traditional Q-Learning updates. The algorithm learns a
latent-space that represents good policies with state clusters for options. We
show that the DVQN algorithm is a promising approach for identifying initiation
and termination conditions for option-based reinforcement learning. Experiments
show that the DVQN algorithm, with automatic initiation and termination, has
comparable performance to Rainbow and can maintain stability when trained for
extended periods after convergence.
- Abstract(参考訳): deep reinforcement learning(rl)は、さまざまな分野の自律エージェントをトレーニングするための、疑わしいほど堅牢なフレームワークです。
しかし、従来のモデルなしRLアルゴリズムはサンプル効率が低く、スパース状態空間の一般化が不十分である。
時間的抽象化を備えたオプションフレームワークは、おそらくこれらの問題を解決する最も有望な方法である。
局所収束を保証しているだけであり、実際には手作りである開始条件と終了条件の自動化は困難である。
提案するDeep Variational Q-Network (DVQN) は、深層生成学習と強化学習を組み合わせたものである。
このアルゴリズムはガウス分布の潜在空間から良いポリシーを見つけ、特にオプションを定義するのに有用である。
DVQNアルゴリズムは、従来のQ-Learning更新と合わせて、KL-divergenceを正規化としてMSEを使用する。
このアルゴリズムは、オプションのステートクラスタによる優れたポリシを表す潜在空間を学習する。
dvqnアルゴリズムは,オプションベース強化学習の開始条件と終了条件の同定に有望な手法であることを示す。
実験により、DVQNアルゴリズムは自動開始と終了を伴い、Rainbowに匹敵する性能を示し、収束後の長期トレーニングで安定性を維持することができる。
関連論文リスト
- Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning [0.0]
逐次的過剰緩和(SOR)Q-ラーニングは、収束をスピードアップする緩和因子を導入し、2つの大きな制限がある。
サンプルベースでモデルなしのダブルSORQ学習アルゴリズムを提案する。
提案アルゴリズムは深部RLを用いて大規模問題に拡張される。
論文 参考訳(メタデータ) (2024-09-10T09:23:03Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Sequential Knockoffs for Variable Selection in Reinforcement Learning [19.925653053430395]
マルコフ決定過程(MDP)における十分最小状態の概念を導入する。
本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:39:06Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。