論文の概要: Towards Interpretable-AI Policies Induction using Evolutionary Nonlinear
Decision Trees for Discrete Action Systems
- arxiv url: http://arxiv.org/abs/2009.09521v2
- Date: Tue, 6 Apr 2021 17:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:26:50.142829
- Title: Towards Interpretable-AI Policies Induction using Evolutionary Nonlinear
Decision Trees for Discrete Action Systems
- Title(参考訳): 離散アクションシステムのための進化的非線形決定木を用いた解釈型AIポリシーの導出に向けて
- Authors: Yashesh Dhebar, Kalyanmoy Deb, Subramanya Nageshrao, Ling Zhu and
Dimitar Filev
- Abstract要約: 我々は最近提案された非線形決定木(NLDT)アプローチを用いて,階層的な制御規則の集合を求める。
1ルールあたり1から4の非線形項を含む比較的単純かつ解釈可能な規則が得られ、同時にパラ閉ループ性能が達成される。
- 参考スコア(独自算出の注目度): 8.322816790979285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box AI induction methods such as deep reinforcement learning (DRL) are
increasingly being used to find optimal policies for a given control task.
Although policies represented using a black-box AI are capable of efficiently
executing the underlying control task and achieving optimal closed-loop
performance, the developed control rules are often complex and neither
interpretable nor explainable. In this paper, we use a recently proposed
nonlinear decision-tree (NLDT) approach to find a hierarchical set of control
rules in an attempt to maximize the open-loop performance for approximating and
explaining the pre-trained black-box DRL (oracle) agent using the labelled
state-action dataset. Recent advances in nonlinear optimization approaches
using evolutionary computation facilitates finding a hierarchical set of
nonlinear control rules as a function of state variables using a
computationally fast bilevel optimization procedure at each node of the
proposed NLDT. Additionally, we propose a re-optimization procedure for
enhancing closed-loop performance of an already derived NLDT. We evaluate our
proposed methodologies (open and closed-loop NLDTs) on different control
problems having multiple discrete actions. In all these problems our proposed
approach is able to find relatively simple and interpretable rules involving
one to four non-linear terms per rule, while simultaneously achieving on par
closed-loop performance when compared to a trained black-box DRL agent. A
post-processing approach for simplifying the NLDT is also suggested. The
obtained results are inspiring as they suggest the replacement of complicated
black-box DRL policies involving thousands of parameters (making them
non-interpretable) with relatively simple interpretable policies. Results are
encouraging and motivating to pursue further applications of proposed approach
in solving more complex control tasks.
- Abstract(参考訳): 深層強化学習(DRL)のようなブラックボックスAI誘導手法は、与えられた制御タスクに対して最適なポリシーを見つけるために、ますます使われている。
ブラックボックスaiで表現されたポリシーは、基盤となる制御タスクを効率的に実行し、最適なクローズドループ性能を達成することができるが、開発された制御ルールはしばしば複雑であり、解釈も説明もできない。
本稿では,最近提案された非線型決定木(nldt)手法を用いて,ラベル付き状態動作データセットを用いた事前学習されたブラックボックス drl (oracle) エージェントの近似と説明のためのオープンループ性能を最大化するために,制御ルールの階層的集合を探索する。
進化的計算を用いた非線形最適化手法の最近の進歩は,提案したNLDTの各ノードにおける高速な二段階最適化手法を用いて,状態変数の関数として非線形制御規則の階層的集合を見つけることを容易にする。
また,すでに派生したNLDTの閉ループ性能向上のための再最適化手法を提案する。
提案手法(開ループnldtsと閉ループnldts)を,複数の離散動作を有する異なる制御問題に対して評価する。
これらすべての問題において,提案手法は,訓練されたブラックボックスDRLエージェントと比較して,1~4つの非線形項を含む比較的単純かつ解釈可能な規則を同時に達成できる。
NLDTを単純化するための後処理アプローチも提案されている。
得られた結果は、何千ものパラメータを含む複雑なブラックボックスDRLポリシーを比較的単純な解釈可能なポリシーで置き換えることを示唆している。
結果は、より複雑な制御タスクを解決するための提案されたアプローチのさらなる応用を奨励し、動機づけている。
関連論文リスト
- FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。