論文の概要: Iterative Bounding MDPs: Learning Interpretable Policies via
Non-Interpretable Methods
- arxiv url: http://arxiv.org/abs/2102.13045v1
- Date: Thu, 25 Feb 2021 17:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 14:02:56.553304
- Title: Iterative Bounding MDPs: Learning Interpretable Policies via
Non-Interpretable Methods
- Title(参考訳): 反復的境界 MDP:非解釈的手法による解釈可能なポリシーの学習
- Authors: Nicholay Topin, Stephanie Milani, Fei Fang, Manuela Veloso
- Abstract要約: 説明可能な強化学習における現在の作業は、一般に、状態空間上の決定木という形でポリシーを生成する。
反復的境界 MDP (IBMDPs) の決定木政策を学習するための新しいマルコフ決定プロセス (MDP) 型を提案する。
IBMDPはベースMDPを中心に構築されるので、各IBMDPポリシーは、メソッドに依存しないマスキング手順を使用する場合、ベースMDPの決定ツリーポリシーに対応することが保証される。
- 参考スコア(独自算出の注目度): 37.553463240629135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current work in explainable reinforcement learning generally produces
policies in the form of a decision tree over the state space. Such policies can
be used for formal safety verification, agent behavior prediction, and manual
inspection of important features. However, existing approaches fit a decision
tree after training or use a custom learning procedure which is not compatible
with new learning techniques, such as those which use neural networks. To
address this limitation, we propose a novel Markov Decision Process (MDP) type
for learning decision tree policies: Iterative Bounding MDPs (IBMDPs). An IBMDP
is constructed around a base MDP so each IBMDP policy is guaranteed to
correspond to a decision tree policy for the base MDP when using a
method-agnostic masking procedure. Because of this decision tree equivalence,
any function approximator can be used during training, including a neural
network, while yielding a decision tree policy for the base MDP. We present the
required masking procedure as well as a modified value update step which allows
IBMDPs to be solved using existing algorithms. We apply this procedure to
produce IBMDP variants of recent reinforcement learning methods. We empirically
show the benefits of our approach by solving IBMDPs to produce decision tree
policies for the base MDPs.
- Abstract(参考訳): 説明可能な強化学習における現在の作業は、一般に、状態空間上の決定木という形でポリシーを生成する。
このようなポリシーは、正式な安全検証、エージェントの行動予測、および重要な機能の手動検査に使用できます。
しかし、既存のアプローチは、トレーニング後に決定木に適合するか、ニューラルネットワークを使用するような新しい学習技術と互換性のないカスタム学習手順を使用する。
この制限に対処するために、決定木ポリシーを学ぶための新しいマルコフ決定プロセス(MDP)タイプを提案します:反復境界MDP(IBMDP)。
IBMDPは、ベースMDPを中心に構築されており、各IBMDPポリシーは、メソッドに依存しないマスキング手順を使用する場合、ベースMDPの決定ツリーポリシーに対応することが保証される。
この決定木等価性のため、ニューラルネットワークを含むトレーニング中に任意の関数近似器を使用でき、ベースMDPの決定木ポリシーを生成することができる。
必要なマスキング手順と、既存のアルゴリズムを使用して IBMDP を解決できる修正された値更新ステップを紹介します。
この手順を,最近の強化学習法のibmdp変種作成に適用する。
我々は,ibmdps を解き,mdp ベースの決定木ポリシーを作成することで,このアプローチの利点を実証的に示す。
関連論文リスト
- MDP Geometry, Normalization and Value Free Solvers [15.627546283580166]
マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
MDPは、区別不能な鍵解アルゴリズムのダイナミックスを持つ同値クラスに分割できることを示す。
論文 参考訳(メタデータ) (2024-07-09T09:39:45Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Optimal Decision Tree Policies for Markov Decision Processes [7.995360025953931]
マルコフ決定過程(MPD)におけるサイズ制限決定木の最適化について検討する。
これは、模倣学習の固有の欠点、すなわち、複雑なポリシーが、サイズ制限木を使って表現できないことによるものである。
一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、OMDTは3の深さに制限され、しばしば最適限に近い性能を示す。
論文 参考訳(メタデータ) (2023-01-30T18:51:02Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Bridging the gap between QP-based and MPC-based RL [1.90365714903665]
擬似プログラム(QP)の形式を採り、最適化問題を用いてポリシーと値関数を近似する。
汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、その結果のポリシーの説明可能性を促進する。
本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。
論文 参考訳(メタデータ) (2022-05-18T10:41:18Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。