論文の概要: Generating Explanations from Deep Reinforcement Learning Using Episodic
Memory
- arxiv url: http://arxiv.org/abs/2205.08926v1
- Date: Wed, 18 May 2022 13:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 13:21:32.153647
- Title: Generating Explanations from Deep Reinforcement Learning Using Episodic
Memory
- Title(参考訳): エピソード記憶を用いた深層強化学習からの説明生成
- Authors: Sam Blakeman, Denis Mareschal
- Abstract要約: ディープ強化学習(Deep Reinforcement Learning, RL)は、報酬を最大化するためにシーケンシャルな決定を行うためにディープニューラルネットワーク(Deep Neural Networks, DNN)を使用する。
我々は,Deep RLエージェントとエピソードメモリシステムを用いて,ポリシー実行中の重要な決定を識別し,再記録する。
これらの決定は、人間の読みやすい短い説明を形成することを示し、この決定は、単純で深いRLエージェントの学習をスピードアップするのにも有効である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (RL) involves the use of Deep Neural Networks
(DNNs) to make sequential decisions in order to maximize reward. For many tasks
the resulting sequence of actions produced by a Deep RL policy can be long and
difficult to understand for humans. A crucial component of human explanations
is selectivity, whereby only key decisions and causes are recounted. Imbuing
Deep RL agents with such an ability would make their resulting policies easier
to understand from a human perspective and generate a concise set of
instructions to aid the learning of future agents. To this end we use a Deep RL
agent with an episodic memory system to identify and recount key decisions
during policy execution. We show that these decisions form a short, human
readable explanation that can also be used to speed up the learning of naive
Deep RL agents in an algorithm-independent manner.
- Abstract(参考訳): deep reinforcement learning(rl)は、報酬を最大化するために、順序決定にdeep neural network(dnn)を使用する。
多くのタスクにおいて、Deep RLポリシーによって生成された一連のアクションは、人間にとって長く、理解するのが困難である。
人間の説明の重要な要素は選択性であり、重要な決定と原因のみが記録される。
このような能力でディープRLエージェントを入力すれば、結果のポリシーが人間の視点で理解しやすくなり、将来のエージェントの学習を支援するための簡潔な命令セットが生成される。
この目的のために我々は、Deep RLエージェントとエピソードメモリシステムを使用して、ポリシー実行中の重要な決定を識別し、再記録する。
これらの決定は、アルゴリズムに依存しない方法でDeep RLエージェントの学習を高速化するためにも使用できる、短くて読みやすい説明を形成する。
関連論文リスト
- Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Learning to Identify Critical States for Reinforcement Learning from
Videos [55.75825780842156]
優れたポリシに関するアルゴリズム情報は、実行されたアクションに関する明示的な情報を持たないオフラインデータから抽出することができる。
例えば、人間やロボットのビデオは、アクションシーケンスに対する報酬に関する暗黙の情報を多く伝達することができる。
このようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し、認識するために、自分で学習する必要がある。
論文 参考訳(メタデータ) (2023-08-15T14:21:24Z) - Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning [23.062590084580542]
Int-HRL:人間の視線から推測される意図に基づくサブゴールを持つ階層的RL。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T12:12:16Z) - Explaining RL Decisions with Trajectories [28.261758841898697]
説明は、実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。
本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
論文 参考訳(メタデータ) (2023-05-06T15:26:22Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Machine versus Human Attention in Deep Reinforcement Learning Tasks [38.80270891345248]
タスク実行中の画素を解析することで、そのような訓練されたモデルの内面動作に光を当てた。
我々は,アタリゲームを学習する際,RLエージェントのサリエンシマップと,人間の専門家の視覚的注意モデルを比較した。
論文 参考訳(メタデータ) (2020-10-29T20:58:45Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。