論文の概要: Assessing and Accelerating Coverage in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.00724v1
- Date: Tue, 1 Dec 2020 18:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 01:11:16.742877
- Title: Assessing and Accelerating Coverage in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるカバレッジの評価と加速
- Authors: Arpan Kusari
- Abstract要約: 現在の強化学習(DRL)アルゴリズムは、シミュレーション環境におけるランダム性を利用して、状態空間の完全なカバレッジを仮定する。
本稿では,DRLアプリケーションのカバレッジを評価するために,APC(Approximate Pseudo-Coverage)を提案する。
標準課題において, 評価の有効性とカバレッジの加速を実証した。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current deep reinforcement learning (DRL) algorithms utilize randomness in
simulation environments to assume complete coverage in the state space.
However, particularly in high dimensions, relying on randomness may lead to
gaps in coverage of the trained DRL neural network model, which in turn may
lead to drastic and often fatal real-world situations. To the best of the
author's knowledge, the assessment of coverage for DRL is lacking in current
research literature. Therefore, in this paper, a novel measure, Approximate
Pseudo-Coverage (APC), is proposed for assessing the coverage in DRL
applications. We propose to calculate APC by projecting the high dimensional
state space on to a lower dimensional manifold and quantifying the occupied
space. Furthermore, we utilize an exploration-exploitation strategy for
coverage maximization using Rapidly-Exploring Random Tree (RRT). The efficacy
of the assessment and the acceleration of coverage is demonstrated on standard
tasks such as Cartpole, highway-env.
- Abstract(参考訳): 現在の深部強化学習(DRL)アルゴリズムは、シミュレーション環境におけるランダム性を利用して、状態空間の完全なカバレッジを仮定する。
しかし、特に高次元において、ランダム性に依存すると、訓練されたDRLニューラルネットワークモデルの範囲が狭くなる可能性があり、その結果、劇的で致命的な現実世界の状況に繋がる可能性がある。
著者の知識を最大限に活用するために、DRLのカバレッジ評価は現在の研究文献に欠けている。
そこで本研究では,DRL アプリケーションにおける適用範囲を評価するために,新しい尺度である Approximate Pseudo-Coverage (APC) を提案する。
我々は,高次元状態空間を下次元多様体に投影し,占有空間を定量化することにより,APCを計算することを提案する。
さらに,高速探索型ランダムツリー(rrt)を用いた範囲最大化のための探索探索戦略を用いる。
カートポール,ハイウェイ-envなどの標準作業において,評価の有効性とカバレッジの加速が示された。
関連論文リスト
- Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。
本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。
また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - What can online reinforcement learning with function approximation
benefit from general coverage conditions? [53.90873926758026]
オンライン強化学習(RL)では、マルコフ決定過程(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件を使用するだけで十分である。
本研究は,より可能で一般的なカバレッジ条件を掘り下げることにより,この新たな方向性に焦点をあてる。
我々は、集中度の変化である$Lp$の変動、密度比の実現可能性、部分/レストカバレッジ条件でのトレードオフなど、さらに多くの概念を識別する。
論文 参考訳(メタデータ) (2023-04-25T14:57:59Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Policy Distillation with Selective Input Gradient Regularization for
Efficient Interpretability [6.037276428689637]
サージェンシマップはディープニューラルネットワークの解釈可能性を提供するために頻繁に使用される。
既存のサリエンシマップアプローチは計算コストがかかるか、現実のシナリオのリアルタイム要件を満たすことができない。
本稿では, 政策蒸留と入力勾配正規化を併用した選択的な入力勾配正規化(DIGR)による蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-05-18T01:47:16Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。