論文の概要: Explaining Reinforcement Learning with Shapley Values
- arxiv url: http://arxiv.org/abs/2306.05810v1
- Date: Fri, 9 Jun 2023 10:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:49:38.966333
- Title: Explaining Reinforcement Learning with Shapley Values
- Title(参考訳): shapley値を用いた強化学習の説明
- Authors: Daniel Beechey, Thomas M. S. Smith, \"Ozg\"ur \c{S}im\c{s}ek
- Abstract要約: 本稿では,Shapley値を用いた強化学習の理論的解析を行う。
我々の分析は、強化学習におけるシェープリー値の早期使用の限界を明らかにする。
次に、Shapley値を使ってエージェントのパフォーマンスを説明するアプローチを開発します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For reinforcement learning systems to be widely adopted, their users must
understand and trust them. We present a theoretical analysis of explaining
reinforcement learning using Shapley values, following a principled approach
from game theory for identifying the contribution of individual players to the
outcome of a cooperative game. We call this general framework Shapley Values
for Explaining Reinforcement Learning (SVERL). Our analysis exposes the
limitations of earlier uses of Shapley values in reinforcement learning. We
then develop an approach that uses Shapley values to explain agent performance.
In a variety of domains, SVERL produces meaningful explanations that match and
supplement human intuition.
- Abstract(参考訳): 強化学習システムが広く採用されるためには,ユーザが理解し,信頼する必要がある。
本稿では,協調ゲームの結果に対する個々のプレイヤーの貢献を識別するためのゲーム理論からの原則的アプローチに従って,シェープリー値を用いた強化学習を説明する理論的分析を行う。
私たちはこの一般的なフレームワークをSVERL(Shapley Values for Explaining Reinforcement Learning)と呼んでいる。
我々の分析は、強化学習におけるシェープリー値の早期使用の限界を明らかにする。
次に、Shapley値を使ってエージェントのパフォーマンスを説明するアプローチを開発します。
様々な領域において、SVERLは人間の直感にマッチし補う意味のある説明を生成する。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Improving the Sampling Strategy in KernelSHAP [0.8057006406834466]
KernelSHAPフレームワークは、重み付けされた条件付き期待値のサンプルサブセットを用いて、Shapley値の近似を可能にする。
本稿では,現在最先端戦略における重みの分散を低減するための安定化手法,サンプルサブセットに基づいてShapleyカーネル重みを補正する新しい重み付け方式,および重要なサブセットを包含して修正されたShapleyカーネル重みと統合する簡単な戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T10:02:31Z) - Shapley Pruning for Neural Network Compression [63.60286036508473]
この研究はShapley値近似を示し、ニューラルネットワーク圧縮の費用対効果の観点から比較分析を行う。
提案した規範的ランキングとその近似は、最先端のネットワーク圧縮を得る実用的な結果を示す。
論文 参考訳(メタデータ) (2024-07-19T11:42:54Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - On the Convergence of the Shapley Value in Parametric Bayesian Learning
Games [28.212413634171572]
いずれのプレイヤーにおいても、シャプリー値の差は、特徴関数が結合フィッシャー情報の対数行列に比例する制限ゲームにおけるシャプリー値の差に収束することを示す。
この結果から,KL 分岐のコストのかかる計算を行なわずに実現可能となった。
論文 参考訳(メタデータ) (2022-05-16T02:29:14Z) - The Shapley Value in Machine Learning [5.867472712737402]
機械学習におけるShapleyの価値の最も重要な応用について概説する。
シェープリー値の最も重要な限界について検討し、今後の研究の方向性を指摘する。
論文 参考訳(メタデータ) (2022-02-11T13:25:11Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z) - Problems with Shapley-value-based explanations as feature importance
measures [12.08945475767566]
機能の重要性のゲーム理論の定式化は、機械学習モデルを"説明"する方法として人気を集めている。
特徴量としてシェープ値が用いられる場合に数学的な問題が生じることを示す。
我々は、Shapley値が人間中心の説明可能性の目標に合った説明を提供していないと論じる。
論文 参考訳(メタデータ) (2020-02-25T18:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。