論文の概要: Approximating Shapley Explanations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.06094v1
- Date: Sat, 08 Nov 2025 18:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.751369
- Title: Approximating Shapley Explanations in Reinforcement Learning
- Title(参考訳): 強化学習における共有表現の近似
- Authors: Daniel Beechey, Özgür Şimşek,
- Abstract要約: 我々は、Shapley値の近似により強化学習を説明するスケーラブルな方法であるFastSVERLを紹介する。
FastSVERLは強化学習のユニークな課題を扱うように設計されている。
- 参考スコア(独自算出の注目度): 1.1458853556386799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has achieved remarkable success in complex decision-making environments, yet its lack of transparency limits its deployment in practice, especially in safety-critical settings. Shapley values from cooperative game theory provide a principled framework for explaining reinforcement learning; however, the computational cost of Shapley explanations is an obstacle to their use. We introduce FastSVERL, a scalable method for explaining reinforcement learning by approximating Shapley values. FastSVERL is designed to handle the unique challenges of reinforcement learning, including temporal dependencies across multi-step trajectories, learning from off-policy data, and adapting to evolving agent behaviours in real time. FastSVERL introduces a practical, scalable approach for principled and rigorous interpretability in reinforcement learning.
- Abstract(参考訳): 強化学習は複雑な意思決定環境において顕著な成功を収めてきたが、透明性の欠如により、特に安全クリティカルな環境での展開が制限された。
協調ゲーム理論からのシェープリーの値は、強化学習を説明するための原則的な枠組みを提供するが、シェープリーの説明の計算コストはそれらの利用の障害となる。
我々は、Shapley値の近似により強化学習を説明するスケーラブルな方法であるFastSVERLを紹介する。
FastSVERLは、多段階のトラジェクトリ間の時間的依存関係、オフポリシーデータからの学習、エージェントの振る舞いをリアルタイムで適応するなど、強化学習のユニークな課題を処理するように設計されている。
FastSVERLは、強化学習における原則的かつ厳密な解釈可能性のための実用的でスケーラブルなアプローチを導入している。
関連論文リスト
- Learning safe, constrained policies via imitation learning: Connection to Probabilistic Inference and a Naive Algorithm [0.22099217573031676]
本稿では,タスクを実行する専門家が示す制約に従って,最大エントロピーポリシーを学習するための模倣学習手法を紹介する。
実験により,制約を課す動作に対する効果的なポリシーモデルを,異なるタイプの制約が複数あり,一般化可能な設定で学習できることが示唆された。
論文 参考訳(メタデータ) (2025-07-09T12:11:27Z) - Guided Policy Optimization under Partial Observability [36.853129816484845]
部分的に観察可能な環境下での強化学習(RL)は、不確実性の下での学習の複雑さによって大きな課題を生じさせる。
本稿では,ガイドと学習者を協調訓練するフレームワークであるGPOを紹介する。
理論的には、この学習方式は直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服する。
論文 参考訳(メタデータ) (2025-05-21T12:01:08Z) - A Theoretical Framework for Explaining Reinforcement Learning with Shapley Values [0.0]
強化学習エージェントは複雑な意思決定タスクにおいて超人的パフォーマンスを達成することができるが、その振る舞いを理解することはしばしば困難である。
我々は、強化学習エージェントの総合的な視点を提供する3つの中核的説明対象を特定した。
本研究では,エージェントが環境下で観察する個々の特徴の影響を利用して,これらの強化学習エージェントの3つの要素を説明するための統一的理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-05-12T17:48:28Z) - Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Explaining Reinforcement Learning with Shapley Values [0.0]
本稿では,Shapley値を用いた強化学習の理論的解析を行う。
我々の分析は、強化学習におけるシェープリー値の早期使用の限界を明らかにする。
次に、Shapley値を使ってエージェントのパフォーマンスを説明するアプローチを開発します。
論文 参考訳(メタデータ) (2023-06-09T10:52:39Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。