論文の概要: STACHE: Local Black-Box Explanations for Reinforcement Learning Policies
- arxiv url: http://arxiv.org/abs/2512.09909v1
- Date: Wed, 10 Dec 2025 18:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.640956
- Title: STACHE: Local Black-Box Explanations for Reinforcement Learning Policies
- Title(参考訳): STACHE:強化学習政策のためのローカルブラックボックス説明
- Authors: Andrew Elashkin, Orna Grumberg,
- Abstract要約: STACHEは、個々のマルコフゲーム内でエージェントの特定のアクションに対するローカルでブラックボックスの説明を生成するためのフレームワークである。
因子状態空間の構造を利用することで、サロゲートモデルの忠実度ギャップを回避できる厳密な探索ベースアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning agents often behave unexpectedly in sparse-reward or safety-critical environments, creating a strong need for reliable debugging and verification tools. In this paper, we propose STACHE, a comprehensive framework for generating local, black-box explanations for an agent's specific action within discrete Markov games. Our method produces a Composite Explanation consisting of two complementary components: (1) a Robustness Region, the connected neighborhood of states where the agent's action remains invariant, and (2) Minimal Counterfactuals, the smallest state perturbations required to alter that decision. By exploiting the structure of factored state spaces, we introduce an exact, search-based algorithm that circumvents the fidelity gaps of surrogate models. Empirical validation on Gymnasium environments demonstrates that our framework not only explains policy actions, but also effectively captures the evolution of policy logic during training - from erratic, unstable behavior to optimized, robust strategies - providing actionable insights into agent sensitivity and decision boundaries.
- Abstract(参考訳): 強化学習エージェントは、スパース・リワードやセーフティ・クリティカルな環境で、しばしば予期せず振る舞う。
本稿では,個別のマルコフゲームにおいてエージェントの特定のアクションに対する局所的ブラックボックスの説明を生成するための包括的なフレームワークSTACHEを提案する。
提案手法は,(1)ロバスト性領域,(2)エージェントの動作が不変な状態の連結近傍,(2)最小の反事実,(2)その決定を変更するのに必要な最小の状態摂動,の2つの相補的成分からなる複合表現を生成する。
因子状態空間の構造を利用することで、サロゲートモデルの忠実度ギャップを回避できる厳密な探索ベースアルゴリズムを導入する。
Gymnasium環境に関する実証的な検証は、我々のフレームワークがポリシーアクションを説明するだけでなく、トレーニング中のポリシーロジックの進化を効果的に捉えていることを示している。
関連論文リスト
- Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Unveiling the Black Box: A Multi-Layer Framework for Explaining Reinforcement Learning-Based Cyber Agents [4.239727656979701]
RLをベースとした攻撃者に対する統一的多層説明可能性フレームワークを提案する。
MDPレベルでは、サイバー攻撃を部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化する。
政策レベルでは、Q値の時間的進化を分析し、優先体験再生(PER)を用いて批判的な学習遷移を表面化する。
論文 参考訳(メタデータ) (2025-05-16T21:29:55Z) - Conditioning Matters: Training Diffusion Policies is Faster Than You Think [69.31534053485711]
拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。
条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。
条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
論文 参考訳(メタデータ) (2025-05-16T11:14:22Z) - Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。
本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。
単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Constrained Exploration in Reinforcement Learning with Optimality
Preservation [2.4671396651514983]
本稿では,エージェントが行動ポリシーに従って個別の状態行動空間を探索し,最適な政策を見つけるための強化学習システムについて考察する。
このような制限は、エージェントがいくつかの状態-作用ペアを訪問することを妨げる可能性がある。
本稿では,最適性保持を伴う制約付き探索の概念を導入し,エージェントの探索動作を仕様を満たすよう制約する。
論文 参考訳(メタデータ) (2023-04-05T15:49:51Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Alternative Microfoundations for Strategic Classification [33.67797984699066]
完全な情報を持つ合理的なエージェントは、決定規則に対する集合的応答において不連続を生じさせることを示す。
標準的なマイクロファウンデーションの下での最適決定ルールは、社会的負担として知られる負の外部性の尺度を最大化する。
我々のモデルは、分析的トラクタビリティを保持し、安定点に関するより堅牢な洞察をもたらし、最適性において社会的負担を低くする。
論文 参考訳(メタデータ) (2021-06-24T00:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。