論文の概要: Local and Global Explanations of Agent Behavior: Integrating Strategy
Summaries with Saliency Maps
- arxiv url: http://arxiv.org/abs/2005.08874v3
- Date: Fri, 29 May 2020 17:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 22:46:58.677449
- Title: Local and Global Explanations of Agent Behavior: Integrating Strategy
Summaries with Saliency Maps
- Title(参考訳): エージェント行動の局所的・グローバル的説明:戦略要約とサリエンシマップの統合
- Authors: Tobias Huber, Katharina Weitz, Elisabeth Andr\'e, Ofra Amir
- Abstract要約: 我々は、強化学習エージェントのグローバルな説明とローカルな説明を組み合わせる。
本研究では,サリエンシマップを用いたシミュレーションから,状態の重要軌跡を抽出する戦略要約を強化する。
実測値と実測値との混合結果が得られた。
- 参考スコア(独自算出の注目度): 4.568911586155097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With advances in reinforcement learning (RL), agents are now being developed
in high-stakes application domains such as healthcare and transportation.
Explaining the behavior of these agents is challenging, as the environments in
which they act have large state spaces, and their decision-making can be
affected by delayed rewards, making it difficult to analyze their behavior. To
address this problem, several approaches have been developed. Some approaches
attempt to convey the $\textit{global}$ behavior of the agent, describing the
actions it takes in different states. Other approaches devised $\textit{local}$
explanations which provide information regarding the agent's decision-making in
a particular state. In this paper, we combine global and local explanation
methods, and evaluate their joint and separate contributions, providing (to the
best of our knowledge) the first user study of combined local and global
explanations for RL agents. Specifically, we augment strategy summaries that
extract important trajectories of states from simulations of the agent with
saliency maps which show what information the agent attends to. Our results
show that the choice of what states to include in the summary (global
information) strongly affects people's understanding of agents: participants
shown summaries that included important states significantly outperformed
participants who were presented with agent behavior in a randomly set of chosen
world-states. We find mixed results with respect to augmenting demonstrations
with saliency maps (local information), as the addition of saliency maps did
not significantly improve performance in most cases. However, we do find some
evidence that saliency maps can help users better understand what information
the agent relies on in its decision making, suggesting avenues for future work
that can further improve explanations of RL agents.
- Abstract(参考訳): 強化学習(RL)の進歩に伴い、医療や交通などの高度な応用分野においてエージェントが開発されている。
これらのエージェントの振る舞いを説明することは、彼らが行動する環境は大きな状態空間を持ち、意思決定は遅延した報酬に影響され、行動を分析するのが難しくなるため、難しい。
この問題に対処するため、いくつかのアプローチが開発されている。
いくつかのアプローチでは、エージェントの$\textit{global}$動作を伝達し、異なる状態におけるアクションを記述する。
他のアプローチでは、特定の状態におけるエージェントの意思決定に関する情報を提供する$\textit{local}$ explanationsを考案した。
本稿では,グローバルな説明手法とローカルな説明手法を組み合わせて,両者の協力関係と貢献関係を評価し,RLエージェントの局所的説明とグローバルな説明を組み合わせた最初のユーザスタディを提供する。
具体的には,エージェントのシミュレーションから重要な状態の軌跡を抽出する戦略要約を,エージェントがどの情報に従うかを示すサラジェンシマップで補強する。
その結果, エージェントの理解にどのような状態を含むかの選択は, エージェントの理解に強く影響し, 重要な状態を含む要約が, ランダムに選択された世界状態のエージェント行動で提示された参加者より有意に優れていたことが示唆された。
その結果,サリエンシマップの付加では性能が向上しなかったため,サリエンシマップを用いたデモ(地域情報)の強化に関する複合的な結果が得られた。
しかし,サリエンシマップが,エージェントが意思決定にどのような情報に依存しているのかをよりよく理解する上で有効であることを示す証拠がいくつか見出され,RLエージェントの説明をさらに改善できる今後の作業への道筋が示唆された。
関連論文リスト
- BET: Explaining Deep Reinforcement Learning through The Error-Prone
Decisions [7.139669387895207]
エージェントの振る舞いをよりよく説明するために,バックボーン抽出木(Backbone Extract Tree, BET)と呼ばれる新しい自己解釈構造を提案する。
高いレベルでは、BETはエージェントが一貫して一様決定を行う状態はエラーの妥当性を低下させるという仮説を立てている。
説明忠実度の観点から,既存の自己解釈モデルよりもBETの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-01-14T11:45:05Z) - Explaining Reinforcement Learning Agents Through Counterfactual Action
Outcomes [9.108253909440489]
エージェントが選択したアクションの結果を、偽物と視覚的に比較する新しい局所的説明法であるCOViz'を提案する。
エージェントのモチベーションを州限定で観察するほとんどのローカルな説明とは対照的に,本手法はエージェントが与えられた状態と結果から取るべき代替の軌跡を描いている。
論文 参考訳(メタデータ) (2023-12-18T11:34:58Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z) - Integrating Policy Summaries with Reward Decomposition for Explaining
Reinforcement Learning Agents [3.8520321531809705]
このようなエージェントの振る舞いを理解するのに役立つ手法は、大まかに局所的な説明とグローバルな説明に分けることができる。
強化学習エージェントの局所的・グローバル的説明の新たな組み合わせについて検討する。
論文 参考訳(メタデータ) (2022-10-21T08:57:46Z) - Experiential Explanations for Reinforcement Learning [15.80179578318569]
強化学習システムは複雑で解釈不能である。
本稿では,実証説明手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T14:27:53Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。