論文の概要: Boolean Decision Rules for Reinforcement Learning Policy Summarisation
- arxiv url: http://arxiv.org/abs/2207.08651v1
- Date: Mon, 18 Jul 2022 14:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 15:15:48.557459
- Title: Boolean Decision Rules for Reinforcement Learning Policy Summarisation
- Title(参考訳): 強化学習政策要約のためのブール決定規則
- Authors: James McCarthy, Rahul Nair, Elizabeth Daly, Radu Marinescu, Ivana
Dusparic
- Abstract要約: 我々は、溶岩グリッドワールドを用いたエージェントのポリシーのルールベースの要約を作成する。
本稿では、このルールベースモデルによって生成されたルールを、エージェントのポリシーに課される制約として利用することにより、RLエージェントのポリシーに安全性を導入する可能性について論じる。
- 参考スコア(独自算出の注目度): 16.969788244589388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainability of Reinforcement Learning (RL) policies remains a challenging
research problem, particularly when considering RL in a safety context.
Understanding the decisions and intentions of an RL policy offer avenues to
incorporate safety into the policy by limiting undesirable actions. We propose
the use of a Boolean Decision Rules model to create a post-hoc rule-based
summary of an agent's policy. We evaluate our proposed approach using a DQN
agent trained on an implementation of a lava gridworld and show that, given a
hand-crafted feature representation of this gridworld, simple generalised rules
can be created, giving a post-hoc explainable summary of the agent's policy. We
discuss possible avenues to introduce safety into a RL agent's policy by using
rules generated by this rule-based model as constraints imposed on the agent's
policy, as well as discuss how creating simple rule summaries of an agent's
policy may help in the debugging process of RL agents.
- Abstract(参考訳): 強化学習(RL)政策の説明可能性については,特に安全性の観点からRLを考える場合,依然として困難な研究課題である。
rlポリシーの決定と意図を理解することは、望ましくないアクションを制限することによって、ポリシーに安全性を組み込む手段を提供する。
本稿では,エージェントのポリシーのポストホックルールに基づく要約を作成するために,ブール決定ルールモデルを提案する。
提案手法は,ラバグリッドワールドの実装を訓練したDQNエージェントを用いて評価し,このグリッドワールドの手作り特徴表現を前提として,シンプルな一般化ルールを作成することができることを示す。
本稿では,このルールベースモデルが生成するルールをエージェントのポリシーに課す制約として利用することにより,rlエージェントのポリシーに安全性を導入する方法を検討するとともに,エージェントのポリシーの簡単なルール要約の作成がrlエージェントのデバッグプロセスにどのように役立つかについて議論する。
関連論文リスト
- Formal Ethical Obligations in Reinforcement Learning Agents: Verification and Policy Updates [0.0]
設計者は、エージェントがすべきこと、それが実際に起きていることとどのように衝突するか、そして競合を取り除くためにポリシーをどう修正するかを、自動的に判断するツールが必要です。
我々は、設計時にこの推論を可能にするために、新しいデオン論理、期待されるアクト・ユーティタリアンデオン論理を提案する。
報酬レベルで働くアプローチとは異なり、論理レベルで働くことはトレードオフの透明性を高める。
論文 参考訳(メタデータ) (2024-07-31T20:21:15Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Reinforcement Learning [36.664136621546575]
強化学習(Reinforcement Learning, RL)は適応制御のための一般的なフレームワークであり、多くの領域で効率的であることが証明されている。
本章では、RLの基本的枠組みを示し、優れた政策を学ぶために開発された2つのアプローチのメインファミリーを思い出す。
論文 参考訳(メタデータ) (2020-05-29T06:53:29Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。