論文の概要: Counterfactual Shapley Values for Explaining Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.02529v1
- Date: Mon, 5 Aug 2024 14:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:17:11.988947
- Title: Counterfactual Shapley Values for Explaining Reinforcement Learning
- Title(参考訳): 強化学習の具体的価値について
- Authors: Yiwei Shi, Qi Zhang, Kevin McAreavey, Weiru Liu,
- Abstract要約: 本稿では、強化学習(RL)における説明可能性を高める新しいアプローチとして、CSV(Counterfactual Shapley Values)を提案する。
このアプローチは、異なる状態次元のコントリビューションをさまざまなアクション選択に定量化し比較することを目的としている。
- 参考スコア(独自算出の注目度): 6.530043756157445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel approach Counterfactual Shapley Values (CSV), which enhances explainability in reinforcement learning (RL) by integrating counterfactual analysis with Shapley Values. The approach aims to quantify and compare the contributions of different state dimensions to various action choices. To more accurately analyze these impacts, we introduce new characteristic value functions, the ``Counterfactual Difference Characteristic Value" and the ``Average Counterfactual Difference Characteristic Value." These functions help calculate the Shapley values to evaluate the differences in contributions between optimal and non-optimal actions. Experiments across several RL domains, such as GridWorld, FrozenLake, and Taxi, demonstrate the effectiveness of the CSV method. The results show that this method not only improves transparency in complex RL systems but also quantifies the differences across various decisions.
- Abstract(参考訳): 本稿では,補足価値と反事実分析を統合することで,強化学習(RL)における説明可能性を高める新しい手法を提案する。
このアプローチは、異なる状態次元のコントリビューションをさまざまなアクション選択に定量化し比較することを目的としている。
これらの影響をより正確に分析するために,新しい特徴値関数である `Counterfactual difference Characteristics Value" と `Average Counterfactal Difference Characteristics Value を導入する。
これらの関数はShapley値の計算に役立ち、最適なアクションと非最適アクションのコントリビューションの違いを評価する。
GridWorld、FrozenLake、Taxiなど、いくつかのRLドメインにわたる実験は、CSVメソッドの有効性を実証している。
その結果, この手法は複雑なRLシステムの透明性を向上するだけでなく, 様々な決定の相違を定量化する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - LLpowershap: Logistic Loss-based Automated Shapley Values Feature
Selection Method [0.0]
損失に基づくShapley値を用いて最小ノイズで情報的特徴を識別する新しい特徴選択手法LLpowershapを提案する。
シミュレーションの結果,LLpowershapはより多くの情報特徴を識別するだけでなく,他の最先端特徴選択法と比較して,ノイズ特性の少ない特徴を出力することがわかった。
論文 参考訳(メタデータ) (2024-01-23T11:46:52Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Explaining Predictive Uncertainty with Information Theoretic Shapley
Values [6.49838460559032]
我々は、様々な種類の予測の不確実性を説明するために、人気のShapley値フレームワークを適用します。
我々は,実データおよびシミュレーションデータに対して,様々な実験でよく動作する効率的なアルゴリズムを実装した。
論文 参考訳(メタデータ) (2023-06-09T07:43:46Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Derivative-based Shapley value for global sensitivity analysis and
machine learning explainability [0.2741266294612775]
我々は、グローバルな感度分析と機械学習説明可能性のための新しいShapley値アプローチを導入する。
この方法は基礎関数の1階部分微分に基づいている。
論文 参考訳(メタデータ) (2023-03-24T00:20:46Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Exact Shapley Values for Local and Model-True Explanations of Decision
Tree Ensembles [0.0]
決定木アンサンブルの説明にShapley値を適用することを検討する。
本稿では,無作為林に適応し,決定木を増強できる,Shapley値に基づく特徴属性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-16T20:16:02Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Efficient computation and analysis of distributional Shapley values [15.322542729755998]
線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。
我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
論文 参考訳(メタデータ) (2020-07-02T19:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。