論文の概要: Local Explanations for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.03597v1
- Date: Tue, 8 Feb 2022 02:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 13:45:03.095331
- Title: Local Explanations for Reinforcement Learning
- Title(参考訳): 強化学習のための地域説明
- Authors: Ronny Luss, Amit Dhurandhar, Miao Liu
- Abstract要約: 自動学習されたメタ状態から重要な状態を特定することに基づくRLポリシーを理解するための新しい視点を提案する。
メタ状態を求めるアルゴリズムが収束し,各メタ状態から重要な状態を選択する目的がサブモジュラーであることを示し,高品質なグレディ選択を実現する。
- 参考スコア(独自算出の注目度): 14.87922813917482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many works in explainable AI have focused on explaining black-box
classification models. Explaining deep reinforcement learning (RL) policies in
a manner that could be understood by domain users has received much less
attention. In this paper, we propose a novel perspective to understanding RL
policies based on identifying important states from automatically learned
meta-states. The key conceptual difference between our approach and many
previous ones is that we form meta-states based on locality governed by the
expert policy dynamics rather than based on similarity of actions, and that we
do not assume any particular knowledge of the underlying topology of the state
space. Theoretically, we show that our algorithm to find meta-states converges
and the objective that selects important states from each meta-state is
submodular leading to efficient high quality greedy selection. Experiments on
four domains (four rooms, door-key, minipacman, and pong) and a carefully
conducted user study illustrate that our perspective leads to better
understanding of the policy. We conjecture that this is a result of our
meta-states being more intuitive in that the corresponding important states are
strong indicators of tractable intermediate goals that are easier for humans to
interpret and follow.
- Abstract(参考訳): 説明可能なAIに関する多くの研究は、ブラックボックス分類モデルの説明に焦点を当てている。
ドメインユーザによって理解されるような、深層強化学習(RL)ポリシーの説明は、はるかに少ない注目を集めている。
本稿では,自動学習されたメタ状態から重要な状態を特定することに基づくRLポリシーを理解するための新しい視点を提案する。
従来の多くのアプローチとの主な概念的違いは、行動の類似性ではなく、専門家の政策力学によって支配される局所性に基づいてメタ状態を形成し、状態空間の基盤となる位相に関する特別な知識を仮定しないことである。
理論的には、メタ状態を見つけるアルゴリズムは収束し、各メタ状態から重要な状態を選択する目的がサブモジュラーであることを示した。
4つの領域(4つの部屋、ドアキー、ミニパックマン、ポン)の実験と慎重に実施されたユーザスタディは、私たちの視点がポリシーの理解を深めることを示している。
これは、私たちのメタ状態がより直感的な結果であり、対応する重要な状態が、人間が解釈し、従うのが容易な、牽引可能な中間目標の強い指標であることを推測する。
関連論文リスト
- MaxMI: A Maximal Mutual Information Criterion for Manipulation Concept Discovery [8.98306885751389]
物理状態の集合を表す正規性を特徴付けるための情報理論的基準を導入する。
この基準を用いて概念発見ネットワークを訓練するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-21T07:56:48Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Towards an Information Theoretic Framework of Context-Based Offline
Meta-Reinforcement Learning [50.976910714839065]
コンテクストベースのOMRL(COMRL)は,効率的なタスク表現を前提としたユニバーサルポリシーの学習を目的としている。
我々はCOMRLアルゴリズムが,タスク変数$boldsymbolM$と,その潜在表現$boldsymbolZ$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
理論的な洞察と情報ボトルネックの原理に基づいて、我々はUNICORNと呼ばれる新しいアルゴリズムに到達し、RLベンチマークの幅広い範囲にわたって顕著な一般化を示す。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - State Representation Learning for Goal-Conditioned Reinforcement
Learning [9.162936410696407]
本稿では,報酬のないマルコフ決定過程に対する新しい状態表現を提案する。
自己監督的な方法で、組込み状態のペア間の埋め込み空間は、それらの間の遷移に必要な最小のアクション数に対応する。
我々は、この表現がどのようにしてゴール条件付きポリシーを学ぶことができるかを示す。
論文 参考訳(メタデータ) (2022-05-04T09:20:09Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Wasserstein Distance Maximizing Intrinsic Control [14.963071654271756]
本稿では,報酬信号がない場合に有意義に機能するスキル条件付き政策を学習する問題に対処する。
このような目的は、多様性に基づく目的よりも、MDPのより多くの距離をカバーする政策につながることを示している。
論文 参考訳(メタデータ) (2021-10-28T17:46:07Z) - DisTop: Discovering a Topological representation to learn diverse and
rewarding skills [0.0]
DisTopは多様なスキルを同時に学習し、報酬スキルの改善にフォーカスした新しいモデルだ。
DisTopは、教師なしのコントラスト損失、成長するネットワーク、目標条件付きポリシーを使用して、環境の離散的なトポロジを構築する。
報奨が不十分な場合, DisTop は階層的強化学習 (HRL) と比較して最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-06-06T10:09:05Z) - Learning for Visual Navigation by Imagining the Success [66.99810227193196]
我々は,成功(下位)ゴーナル状態の潜在表現を想像することを提案する。
ForeSITは、成功につながる将来の状態の繰り返しの潜在表現を想像するように訓練されています。
ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
論文 参考訳(メタデータ) (2021-02-28T10:25:46Z) - Explainable Deep Classification Models for Domain Generalization [94.43131722655617]
説明は、深い分類網が決定を下す視覚的証拠の領域として定義される。
トレーニング戦略は周期的な正当性に基づくフィードバックを強制し、モデルが地中真実に直接対応する画像領域に焦点を合わせることを奨励する。
論文 参考訳(メタデータ) (2020-03-13T22:22:15Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。