論文の概要: Explainable Reinforcement Learning via Temporal Policy Decomposition
- arxiv url: http://arxiv.org/abs/2501.03902v1
- Date: Tue, 07 Jan 2025 16:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:21.459905
- Title: Explainable Reinforcement Learning via Temporal Policy Decomposition
- Title(参考訳): 時間的政策分割による説明可能な強化学習
- Authors: Franco Ruggeri, Alessio Russo, Rafia Inam, Karl Henrik Johansson,
- Abstract要約: 今後期待される成果(EFO)の観点から個別のRL行動を説明する新しい説明可能性アプローチであるTPD(Temporal Policy Decomposition)を提案する。
TPDは、政策の今後の戦略と、与えられた行動に対する予測軌道を明確にする正確な説明を生成し、(ii)報酬構成の理解を改善する。
- 参考スコア(独自算出の注目度): 9.522934686096452
- License:
- Abstract: We investigate the explainability of Reinforcement Learning (RL) policies from a temporal perspective, focusing on the sequence of future outcomes associated with individual actions. In RL, value functions compress information about rewards collected across multiple trajectories and over an infinite horizon, allowing a compact form of knowledge representation. However, this compression obscures the temporal details inherent in sequential decision-making, presenting a key challenge for interpretability. We present Temporal Policy Decomposition (TPD), a novel explainability approach that explains individual RL actions in terms of their Expected Future Outcome (EFO). These explanations decompose generalized value functions into a sequence of EFOs, one for each time step up to a prediction horizon of interest, revealing insights into when specific outcomes are expected to occur. We leverage fixed-horizon temporal difference learning to devise an off-policy method for learning EFOs for both optimal and suboptimal actions, enabling contrastive explanations consisting of EFOs for different state-action pairs. Our experiments demonstrate that TPD generates accurate explanations that (i) clarify the policy's future strategy and anticipated trajectory for a given action and (ii) improve understanding of the reward composition, facilitating fine-tuning of the reward function to align with human expectations.
- Abstract(参考訳): 強化学習(RL)政策の時間的側面からの説明可能性について検討し,個人行動に関連する今後の成果のシーケンスに着目した。
RLでは、値関数は、複数の軌道にまたがる無限の地平線を越えて収集された報酬に関する情報を圧縮し、知識表現のコンパクトな形式を可能にする。
しかし、この圧縮は、シーケンシャルな意思決定に固有の時間的詳細を曖昧にし、解釈可能性に対する重要な課題を提示する。
本稿では, 今後期待される成果(EFO)の観点から, 個別のRL行動を説明する新しい説明可能性アプローチとして, 時間政策分解(TPD)を提案する。
これらの説明は、一般化された値関数をEFOの列に分解し、各時間ごとに関心の予測地平線まで進み、特定の結果がいつ起こるかについての洞察を明らかにする。
固定水平時間差分学習を活用して、最適動作と準最適動作の両方についてEFOを学習するための非政治的手法を考案し、異なる状態-作用対のためのEFOからなる対照的な説明を可能にする。
我々の実験は、PDが正確な説明を生成することを示した。
一 政策の今後の戦略を明確化し、所定の行動の軌跡を期待すること。
二 報酬構成の理解を深め、報酬機能の微調整を容易にし、人間の期待に沿うこと。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文 参考訳(メタデータ) (2023-10-12T07:50:37Z) - Discerning Temporal Difference Learning [5.439020425819001]
時間差分学習(TD)は強化学習の基礎概念である
我々は、識別型TD学習(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:10Z) - Recent Advances of Deep Robotic Affordance Learning: A Reinforcement
Learning Perspective [44.968170318777105]
ディープ・ロボティクス・アベイランス・ラーニング(DRAL)は、ロボットのタスクを支援するために、アベイランスの概念を使用するデータ駆動の手法を開発することを目的としている。
まず、これらの論文を強化学習(RL)の観点から分類し、RLと余裕の関連性を引き出す。
最後に、任意のアクション結果の予測を含むために、RLに基づくアベイランス定義の将来的な方向性を提案する。
論文 参考訳(メタデータ) (2023-03-09T15:42:01Z) - Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文 参考訳(メタデータ) (2022-12-15T16:28:06Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。