Fugu-MT 論文翻訳(概要): Benchmarking Perturbation-based Saliency Maps for Explaining Deep Reinforcement Learning Agents

論文の概要: Benchmarking Perturbation-based Saliency Maps for Explaining Deep Reinforcement Learning Agents

arxiv url: http://arxiv.org/abs/2101.07312v1
Date: Mon, 18 Jan 2021 19:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-27 06:02:24.566753
Title: Benchmarking Perturbation-based Saliency Maps for Explaining Deep Reinforcement Learning Agents
Title（参考訳）: 深層強化学習エージェントのための摂動に基づく塩分マップのベンチマーク
Authors: Tobias Huber, Benedikt Limmer, Elisabeth Andr\'e
Abstract要約: 本稿では、4種類のAtari 2600ゲームで訓練されたDeep Reinforcement Learningエージェントのサリエンシーマップを作成するための4つのアプローチを比較します。アプローチはエージェントの学習パラメータへの依存(正当性チェック)、エージェントの推論への忠実さ(入力劣化)、実行時間という3つの計算指標を用いて比較される。
参考スコア（独自算出の注目度）: 0.6015898117103069
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent years saw a plethora of work on explaining complex intelligent agents. One example is the development of several algorithms that generate saliency maps which show how much each pixel attributed to the agents' decision. However, most evaluations of such saliency maps focus on image classification tasks. As far as we know, there is no work which thoroughly compares different saliency maps for Deep Reinforcement Learning agents. This paper compares four perturbation-based approaches to create saliency maps for Deep Reinforcement Learning agents trained on four different Atari 2600 games. All four approaches work by perturbing parts of the input and measuring how much this affects the agent's output. The approaches are compared using three computational metrics: dependence on the learned parameters of the agent (sanity checks), faithfulness to the agent's reasoning (input degradation), and run-time.
Abstract（参考訳）: 近年、複雑な知的エージェントの説明が盛んに行われている。 1つの例は、各ピクセルがエージェントの決定にどの程度の理由があるかを示す、サリエンシマップを生成するアルゴリズムの開発である。しかし,このようなサリエンシマップのほとんどの評価は,画像分類作業に重点を置いている。私たちが知る限り、深層強化学習エージェントの異なる給与マップを徹底的に比較する作業はありません。本稿では,4つの異なるAtari 2600ゲームで訓練された深層強化学習エージェントに対して,摂動に基づく4つのサリエンシマップ作成手法を比較した。 4つのアプローチはすべて、入力の一部を摂動させ、エージェントの出力にどの程度影響するかを測定することで機能する。アプローチはエージェントの学習パラメータへの依存(正当性チェック)、エージェントの推論への忠実さ(入力劣化)、実行時間という3つの計算指標を用いて比較される。

関連論文リスト

Reinforcement Learning for Hanabi [0.0]
我々は,異なる強化学習アルゴリズムを探索し,同一タイプのエージェントに対して,また他の種類のエージェントに対して,どのエージェントが最高の性能を示したかを検討した。その結果、時間差(TD)アルゴリズムは、表型エージェントと比較して、プレイタイプの全体的なパフォーマンスとバランスが良好であることが判明した。
論文参考訳（メタデータ） (2025-05-31T08:24:16Z)
Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-29T23:38:28Z)
GoRela: Go Relative for Viewpoint-Invariant Motion Forecasting [121.42898228997538]
精度や一般化を犠牲にすることなく、全てのエージェントとマップに対して効率的な共有符号化を提案する。不均一空間グラフにおけるエージェントとマップ要素間の幾何学的関係を表現するために、ペアワイズ相対的な位置符号化を利用する。我々のデコーダは視点非依存であり、レーングラフ上でエージェント目標を予測し、多様かつコンテキスト対応のマルチモーダル予測を可能にする。
論文参考訳（メタデータ） (2022-11-04T16:10:50Z)
Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。 InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文参考訳（メタデータ） (2022-11-03T20:02:45Z)
Efficient Cooperation Strategy Generation in Multi-Agent Video Games via Hypergraph Neural Network [16.226702761758595]
シングルエージェントビデオゲームにおける深層強化学習のパフォーマンスは驚くべきものだ。しかし、研究者はマルチエージェント環境でビデオゲームを扱う際にさらに困難を抱えている。本稿では,エージェントのハイパーグラフ構造に適応し,エージェント間の情報特徴抽出と表現の完全化にハイパーグラフ畳み込みを利用するアクタ・クリティック法に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-07T10:34:40Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
Explaining Reinforcement Learning Policies through Counterfactual Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文参考訳（メタデータ） (2022-01-29T00:52:37Z)
Unsupervised Skill-Discovery and Skill-Learning in Minecraft [0.0]
状態表現の教師なしスキル発見と自己教師付き学習を活用する。変動的およびコントラスト的手法を用いて,コンパクトな潜在表現を学習する。以上の結果から,画素から学習した表現や条件付きポリシーはおもちゃの例では十分だが,現実的で複雑な地図には拡張できないことが示唆された。
論文参考訳（メタデータ） (2021-07-18T09:28:21Z)
CAMERAS: Enhanced Resolution And Sanity preserving Class Activation Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。 CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文参考訳（メタデータ） (2021-06-20T08:20:56Z)
Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。 MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文参考訳（メタデータ） (2021-02-28T00:15:53Z)
Are Gradient-based Saliency Maps Useful in Deep Reinforcement Learning? [4.254099382808598]
Deep Reinforcement Learning (DRL)は、古典的なReinforcement LearningアルゴリズムとDeep Neural Networksを接続する。 DRLの問題は、CNNがブラックボックスであり、エージェントの意思決定プロセスを理解することは困難である。この研究は、画像分類の分野からDeep Reinforcement Learningの分野まで、よく知られた視覚化手法をいくつかもたらす。
論文参考訳（メタデータ） (2020-12-02T15:38:36Z)
Machine versus Human Attention in Deep Reinforcement Learning Tasks [38.80270891345248]
タスク実行中の画素を解析することで、そのような訓練されたモデルの内面動作に光を当てた。我々は,アタリゲームを学習する際,RLエージェントのサリエンシマップと,人間の専門家の視覚的注意モデルを比較した。
論文参考訳（メタデータ） (2020-10-29T20:58:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。