Fugu-MT 論文翻訳(概要): Explainable Deep Reinforcement Learning Using Introspection in a Non-episodic Task

論文の概要: Explainable Deep Reinforcement Learning Using Introspection in a Non-episodic Task

arxiv url: http://arxiv.org/abs/2108.08911v1
Date: Wed, 18 Aug 2021 02:49:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-24 00:38:43.991015
Title: Explainable Deep Reinforcement Learning Using Introspection in a Non-episodic Task
Title（参考訳）: イントロスペクションを用いた非定型タスクにおける説明可能な深層強化学習
Authors: Angel Ayala, Francisco Cruz, Bruno Fernandes and Richard Dazeley
Abstract要約: エージェントの意思決定プロセスを説明するベースとして使用されるQ値を成功の確率に変換するイントロスペクションベースの方法。 Introspection method to be used in-episodic task, and try it in a continuous Atari game scenario with the Rainbow algorithm。
参考スコア（独自算出の注目度）: 1.2735892003153293
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Explainable reinforcement learning allows artificial agents to explain their behavior in a human-like manner aiming at non-expert end-users. An efficient alternative of creating explanations is to use an introspection-based method that transforms Q-values into probabilities of success used as the base to explain the agent's decision-making process. This approach has been effectively used in episodic and discrete scenarios, however, to compute the probability of success in non-episodic and more complex environments has not been addressed yet. In this work, we adapt the introspection method to be used in a non-episodic task and try it in a continuous Atari game scenario solved with the Rainbow algorithm. Our initial results show that the probability of success can be computed directly from the Q-values for all possible actions.
Abstract（参考訳）: 説明可能な強化学習により、人工エージェントは、人間のような方法で、非熟練のエンドユーザーを対象とする行動を説明することができる。説明を作成するための効果的な方法は、Q値がエージェントの意思決定プロセスを説明するためにベースとして使われる成功の確率に変換するイントロスペクションベースの方法を使用することである。このアプローチはエピソジックおよび離散的なシナリオで効果的に用いられてきたが、非エピソジックかつより複雑な環境での成功確率を計算するためにはまだ対処されていない。本研究では,非エポゾディックなタスクで使用されるイントロスペクション手法を適用し,レインボーアルゴリズムで解決した連続的なアタリゲームシナリオで試す。最初の結果から,全ての行動に対してQ値から直接成功確率を計算できることが示唆された。

関連論文リスト

Automatic Reward Shaping from Confounded Offline Data [69.11672390876763]
本稿では,DQN(Deep Q-Network)に基づいて,観測データのバイアスの解消に頑健な新しい強化学習アルゴリズムを提案する。提案手法は,12個のAtariゲームに対して適用され,観察された動作および目標ポリシーへの入力がミスマッチおよび観測されていない共同創設者が存在するすべてのゲームにおいて,標準DQNを一貫して支配していることがわかった。
論文参考訳（メタデータ） (2025-05-16T17:40:01Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文参考訳（メタデータ） (2024-11-11T14:05:50Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文参考訳（メタデータ） (2024-06-20T15:25:13Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Exploration via Epistemic Value Estimation [22.54793586116019]
本稿では、逐次意思決定とニューラルネットワーク関数近似器との互換性のあるレシピを提案する。全てのパラメータに対して引き込み可能な後部エージェントを装備し、そこからてんかんの値の不確実性を効率的に計算することができる。実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。
論文参考訳（メタデータ） (2023-03-07T16:25:52Z)
Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文参考訳（メタデータ） (2022-11-04T18:00:02Z)
Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文参考訳（メタデータ） (2022-08-12T13:29:53Z)
Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文参考訳（メタデータ） (2022-05-21T08:39:42Z)
Probability Density Estimation Based Imitation Learning [11.262633728487165]
イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-13T15:55:38Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。