論文の概要: Explainable Deep Reinforcement Learning Using Introspection in a
Non-episodic Task
- arxiv url: http://arxiv.org/abs/2108.08911v1
- Date: Wed, 18 Aug 2021 02:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 00:38:43.991015
- Title: Explainable Deep Reinforcement Learning Using Introspection in a
Non-episodic Task
- Title(参考訳): イントロスペクションを用いた非定型タスクにおける説明可能な深層強化学習
- Authors: Angel Ayala, Francisco Cruz, Bruno Fernandes and Richard Dazeley
- Abstract要約: エージェントの意思決定プロセスを説明するベースとして使用されるQ値を成功の確率に変換するイントロスペクションベースの方法。
Introspection method to be used in-episodic task, and try it in a continuous Atari game scenario with the Rainbow algorithm。
- 参考スコア(独自算出の注目度): 1.2735892003153293
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Explainable reinforcement learning allows artificial agents to explain their
behavior in a human-like manner aiming at non-expert end-users. An efficient
alternative of creating explanations is to use an introspection-based method
that transforms Q-values into probabilities of success used as the base to
explain the agent's decision-making process. This approach has been effectively
used in episodic and discrete scenarios, however, to compute the probability of
success in non-episodic and more complex environments has not been addressed
yet. In this work, we adapt the introspection method to be used in a
non-episodic task and try it in a continuous Atari game scenario solved with
the Rainbow algorithm. Our initial results show that the probability of success
can be computed directly from the Q-values for all possible actions.
- Abstract(参考訳): 説明可能な強化学習により、人工エージェントは、人間のような方法で、非熟練のエンドユーザーを対象とする行動を説明することができる。
説明を作成するための効果的な方法は、Q値がエージェントの意思決定プロセスを説明するためにベースとして使われる成功の確率に変換するイントロスペクションベースの方法を使用することである。
このアプローチはエピソジックおよび離散的なシナリオで効果的に用いられてきたが、非エピソジックかつより複雑な環境での成功確率を計算するためにはまだ対処されていない。
本研究では,非エポゾディックなタスクで使用されるイントロスペクション手法を適用し,レインボーアルゴリズムで解決した連続的なアタリゲームシナリオで試す。
最初の結果から,全ての行動に対してQ値から直接成功確率を計算できることが示唆された。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Exploration via Epistemic Value Estimation [22.54793586116019]
本稿では、逐次意思決定とニューラルネットワーク関数近似器との互換性のあるレシピを提案する。
全てのパラメータに対して引き込み可能な後部エージェントを装備し、そこからてんかんの値の不確実性を効率的に計算することができる。
実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。
論文 参考訳(メタデータ) (2023-03-07T16:25:52Z) - Explaining Agent's Decision-making in a Hierarchical Reinforcement
Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。
本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文 参考訳(メタデータ) (2022-12-14T01:18:45Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Towards Robust Deep Learning using Entropic Losses [0.0]
この論文は、新規な損失関数と検出スコアを提案することにより、未解決のアウト・オブ・ディストリビューション検出タスクに取り組む。
また、この頑健性に関連するタスクにも対処し、ディープニューラルネットワークによって提示される確率がどれほど現実的であるかを評価する。
論文 参考訳(メタデータ) (2022-08-06T18:52:39Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - Probability Density Estimation Based Imitation Learning [11.262633728487165]
イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。
確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T15:55:38Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。