論文の概要: Explaining RL Decisions with Trajectories
- arxiv url: http://arxiv.org/abs/2305.04073v2
- Date: Mon, 22 Jan 2024 12:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:48:34.788636
- Title: Explaining RL Decisions with Trajectories
- Title(参考訳): 軌道によるRL決定の説明
- Authors: Shripad Vilasrao Deshmukh, Arpan Dasgupta, Balaji Krishnamurthy, Nan
Jiang, Chirag Agarwal, Georgios Theocharous, Jayakumar Subramanian
- Abstract要約: 説明は、実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。
本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
- 参考スコア(独自算出の注目度): 28.261758841898697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Explanation is a key component for the adoption of reinforcement learning
(RL) in many real-world decision-making problems. In the literature, the
explanation is often provided by saliency attribution to the features of the RL
agent's state. In this work, we propose a complementary approach to these
explanations, particularly for offline RL, where we attribute the policy
decisions of a trained RL agent to the trajectories encountered by it during
training. To do so, we encode trajectories in offline training data
individually as well as collectively (encoding a set of trajectories). We then
attribute policy decisions to a set of trajectories in this encoded space by
estimating the sensitivity of the decision with respect to that set. Further,
we demonstrate the effectiveness of the proposed approach in terms of quality
of attributions as well as practical scalability in diverse environments that
involve both discrete and continuous state and action spaces such as
grid-worlds, video games (Atari) and continuous control (MuJoCo). We also
conduct a human study on a simple navigation task to observe how their
understanding of the task compares with data attributed for a trained RL
policy. Keywords -- Explainable AI, Verifiability of AI Decisions, Explainable
RL.
- Abstract(参考訳): 説明は実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。
文献では、この説明は、しばしばRLエージェントの状態の特徴に対する塩分濃度の属性によって提供される。
本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
そのため、オフライントレーニングデータのトラジェクトリを個別に、また集合的に(一連のトラジェクトリを符号化する)トラジェクトリを符号化する。
そして、その集合に対する決定の感度を推定することにより、この符号化空間における一連の軌道にポリシー決定を関連付ける。
さらに,グリッドワールド,ビデオゲーム(atari),連続制御(mujoco)といった離散状態と連続状態とアクション空間の両方を含む多様な環境において,属性の質と実用的なスケーラビリティの観点から,提案手法の有効性を実証する。
また、簡単なナビゲーションタスクについて人間による研究を行い、そのタスクに対する理解が、訓練されたRLポリシーに起因するデータとどのように比較されるかを観察する。
キーワード - 説明可能なAI、AI決定の検証可能性、説明可能なRL。
関連論文リスト
- Align Your Intents: Offline Imitation Learning via Optimal Transport [3.466132008692413]
模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れており、スパース・リワードタスクにおける他のオフラインRLアルゴリズムの性能を向上させる。
論文 参考訳(メタデータ) (2024-02-20T14:24:00Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Disentangled Representation Learning [49.90680972116791]
Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、切り離すことができるモデルを学習することを目的としている。
我々は、モチベーション、定義、方法論、評価、アプリケーション、モデルデザインを含む様々な側面からDRLを包括的にレビューする。
論文 参考訳(メタデータ) (2022-11-21T18:14:38Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Catastrophic Interference in Reinforcement Learning: A Solution Based on
Context Division and Knowledge Distillation [8.044847478961882]
コンテクスト」の概念をシングルタスク強化学習に導入する。
我々は、コンテキスト分割と知識蒸留駆動RLと呼ばれる新しいスキームを開発する。
以上の結果から,CDaKDはメモリ容量の変動により,既存のRLアルゴリズムの性能を継続的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-01T12:02:04Z) - Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework
and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。
RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。
本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文 参考訳(メタデータ) (2021-08-20T05:18:50Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。