論文の概要: Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models
- arxiv url: http://arxiv.org/abs/2105.07099v1
- Date: Fri, 14 May 2021 23:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:40:06.986385
- Title: Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models
- Title(参考訳): 状態遷移モデルに基づく特徴ベース解釈型強化学習
- Authors: Omid Davoodi, Majid Komeili
- Abstract要約: 現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
- 参考スコア(独自算出の注目度): 3.883460584034766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing concerns regarding the operational usage of AI models in the
real-world has caused a surge of interest in explaining AI models' decisions to
humans. Reinforcement Learning is not an exception in this regard. In this
work, we propose a method for offering local explanations on risk in
reinforcement learning. Our method only requires a log of previous interactions
between the agent and the environment to create a state-transition model. It is
designed to work on RL environments with either continuous or discrete state
and action spaces. After creating the model, actions of any agent can be
explained in terms of the features most influential in increasing or decreasing
risk or any other desirable objective function in the locality of the agent.
Through experiments, we demonstrate the effectiveness of the proposed method in
providing such explanations.
- Abstract(参考訳): 現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの判断を人間に説明することへの関心が高まっている。
この点で強化学習は例外ではない。
本研究では,強化学習におけるリスクを局所的に説明するための手法を提案する。
我々の手法は状態遷移モデルを作成するためにエージェントと環境の間の以前の相互作用のログのみを必要とする。
連続的または離散的な状態とアクション空間を持つRL環境で動作するように設計されている。
モデルの作成後、任意のエージェントのアクションは、リスクの増加または減少に最も影響を及ぼす特徴や、エージェントの局所性において他の望ましい目的関数の観点から説明することができる。
実験を通じて,提案手法の有効性を実証する。
関連論文リスト
- Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - SAFARI: Safe and Active Robot Imitation Learning with Imagination [16.967930721746676]
SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
論文 参考訳(メタデータ) (2020-11-18T23:43:59Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Agent Modelling under Partial Observability for Deep Reinforcement
Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文 参考訳(メタデータ) (2020-06-16T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。