論文の概要: Interpret Policies in Deep Reinforcement Learning using SILVER with RL-Guided Labeling: A Model-level Approach to High-dimensional and Multi-action Environments
- arxiv url: http://arxiv.org/abs/2510.19244v1
- Date: Wed, 22 Oct 2025 05:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.128341
- Title: Interpret Policies in Deep Reinforcement Learning using SILVER with RL-Guided Labeling: A Model-level Approach to High-dimensional and Multi-action Environments
- Title(参考訳): RL-Guided Labelingを用いたSILVERを用いた深層強化学習の解釈方略:高次元・多行動環境へのモデルレベルのアプローチ
- Authors: Yiyu Qian, Su Nguyen, Chao Chen, Qinyue Zhou, Liyuan Zhao,
- Abstract要約: 深層強化学習は優れた性能を発揮するが、解釈性に欠ける。
SILVERフレームワークは、Shapleyベースの回帰を通じてRLポリシーを説明するが、低次元のバイナリアクションドメインに限定されている。
本稿では,SILVERをマルチアクションおよび高次元環境に拡張した拡張型であるRL誘導ラベル付きSILVERを提案する。
- 参考スコア(独自算出の注目度): 3.905774454930983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) achieves remarkable performance but lacks interpretability, limiting trust in policy behavior. The existing SILVER framework (Li, Siddique, and Cao 2025) explains RL policy via Shapley-based regression but remains restricted to low-dimensional, binary-action domains. We propose SILVER with RL-guided labeling, an enhanced variant that extends SILVER to multi-action and high-dimensional environments by incorporating the RL policy's own action outputs into the boundary points identification. Our method first extracts compact feature representations from image observations, performs SHAP-based feature attribution, and then employs RL-guided labeling to generate behaviorally consistent boundary datasets. Surrogate models, such as decision trees and regression-based functions, are subsequently trained to interpret RL policy's decision structure. We evaluate the proposed framework on two Atari environments using three deep RL algorithms and conduct human-subject study to assess the clarity and trustworthiness of the derived interpretable policy. Results show that our approach maintains competitive task performance while substantially improving transparency and human understanding of agent behavior. This work advances explainable RL by transforming SILVER into a scalable and behavior-aware framework for interpreting deep RL agents in high-dimensional, multi-action settings.
- Abstract(参考訳): 深層強化学習(RL)は、優れた性能を発揮するが、解釈可能性に欠け、政策行動への信頼が制限される。
既存のSILVERフレームワーク(Li, Siddique, Cao 2025)は、Shapleyベースの回帰によるRLポリシーを説明しているが、低次元のバイナリアクションドメインに制限されている。
RLポリシーの動作出力を境界点同定に組み込むことで、SILVERをマルチアクションおよび高次元環境に拡張する拡張型であるRL誘導ラベル付きSILVERを提案する。
提案手法はまず,画像観測からコンパクトな特徴表現を抽出し,SHAPに基づく特徴属性を実行し,RL誘導ラベルを用いて行動整合境界データセットを生成する。
決定木や回帰に基づく関数などの代理モデルはその後、RLポリシーの決定構造を理解するために訓練される。
提案手法を3つの深いRLアルゴリズムを用いて2つのアタリ環境上で評価し,提案手法の明確さと信頼性を評価する。
提案手法は,エージェント動作の透明性と人間の理解を大幅に向上させながら,競争力のあるタスク性能を維持していることを示す。
この研究は、SILVERを高次元マルチアクション設定で深いRLエージェントを解釈するためのスケーラブルで振る舞い対応のフレームワークに変換することによって、説明可能なRLを前進させる。
関連論文リスト
- Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。
我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文 参考訳(メタデータ) (2025-07-25T17:08:16Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation [2.08099858257632]
本稿では,複雑な深いRLポリシーを透過的な表現に変換するためのモデルに依存しない新しいアプローチを提案する。
提案手法を既存の3つの深部RLアルゴリズムを用いて評価し,その性能を2つの古典的制御環境で検証した。
論文 参考訳(メタデータ) (2025-01-16T22:11:03Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared
State Representation and Individual Policy Representation [31.9768280877473]
2次元状態表現と政策表現を用いた進化的強化学習(ERL-Re$2$)を提案する。
すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら、同じ非線形状態表現を共有している。
一連の連続制御タスクの実験では、ERL-Re$2$は、高度ベースラインを一貫して上回り、最先端アート(SOTA)を達成する。
論文 参考訳(メタデータ) (2022-10-26T10:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。