論文の概要: Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values
- arxiv url: http://arxiv.org/abs/2110.01307v1
- Date: Mon, 4 Oct 2021 10:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 21:19:31.942988
- Title: Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values
- Title(参考訳): 集合的eXplainable AI:共有価値を用いたマルチエージェント強化学習における協調戦略とエージェント貢献の解説
- Authors: Alexandre Heuillet, Fabien Couthouis and Natalia D\'iaz-Rodr\'iguez
- Abstract要約: 本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Explainable Artificial Intelligence (XAI) is increasingly expanding
more areas of application, little has been applied to make deep Reinforcement
Learning (RL) more comprehensible. As RL becomes ubiquitous and used in
critical and general public applications, it is essential to develop methods
that make it better understood and more interpretable. This study proposes a
novel approach to explain cooperative strategies in multiagent RL using Shapley
values, a game theory concept used in XAI that successfully explains the
rationale behind decisions taken by Machine Learning algorithms. Through
testing common assumptions of this technique in two cooperation-centered
socially challenging multi-agent environments environments, this article argues
that Shapley values are a pertinent way to evaluate the contribution of players
in a cooperative multi-agent RL context. To palliate the high overhead of this
method, Shapley values are approximated using Monte Carlo sampling.
Experimental results on Multiagent Particle and Sequential Social Dilemmas show
that Shapley values succeed at estimating the contribution of each agent. These
results could have implications that go beyond games in economics, (e.g., for
non-discriminatory decision making, ethical and responsible AI-derived
decisions or policy making under fairness constraints). They also expose how
Shapley values only give general explanations about a model and cannot explain
a single run, episode nor justify precise actions taken by agents. Future work
should focus on addressing these critical aspects.
- Abstract(参考訳): 説明可能な人工知能(XAI)はアプリケーション領域を拡大しつつあるが、深層強化学習(RL)をより理解しやすいものにするためにはほとんど適用されていない。
RLがユビキタスになり、批判的、一般の用途に使用されるようになると、より理解し、解釈しやすい手法を開発することが不可欠である。
本研究は,機械学習アルゴリズムによる意思決定の背後にある理性を説明するゲーム理論であるShapley値を用いて,マルチエージェントRLにおける協調戦略を説明する新しい手法を提案する。
この手法の一般的な前提を2つの協調中心型多エージェント環境環境でテストすることにより、シャプリーの値は協調多エージェントrlコンテキストにおけるプレイヤーの貢献を評価するための関連する方法であると主張する。
この手法のオーバーヘッドを緩和するために、モンテカルロサンプリングを用いてShapley値を近似する。
マルチエージェント粒子および逐次社会ジレンマ実験の結果,シャプリー値が各エージェントの寄与度を推定することに成功した。
これらの結果は、経済学(非差別的な意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定など)のゲームを超えた意味を持つ可能性がある。
また、Shapleyの値はモデルに関する一般的な説明しか与えず、単一の実行、エピソードの説明やエージェントによる正確なアクションの正当化はできない。
今後の作業は、これらの重要な側面に取り組むことに集中すべきである。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Towards a more efficient computation of individual attribute and policy
contribution for post-hoc explanation of cooperative multi-agent systems
using Myerson values [0.0]
チームにおけるエージェントのグローバルな重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって、金と同じくらいの価値がある。
マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。
提案手法を,Deep Reinforcement Learningを通じて得られたハードコードされたポリシーとポリシーの両方をデプロイする実例実証環境で検証する。
論文 参考訳(メタデータ) (2022-12-06T15:15:00Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework
and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。
RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。
本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文 参考訳(メタデータ) (2021-08-20T05:18:50Z) - Rational Shapley Values [0.0]
ポストホックな説明可能な人工知能(XAI)の一般的なツールは、文脈に敏感であるか、要約が難しい。
非互換なアプローチを合成し拡張する新しいXAI手法である、エミュレーション型シェープリー値を導入する。
私は、意思決定理論や因果モデリングのツールを活用して、XAIにおける多くの既知の課題を解決する実用的なアプローチを定式化し、実装します。
論文 参考訳(メタデータ) (2021-06-18T15:45:21Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。