Fugu-MT 論文翻訳(概要): Explaining RL Decisions with Trajectories

論文の概要: Explaining RL Decisions with Trajectories

arxiv url: http://arxiv.org/abs/2305.04073v2
Date: Mon, 22 Jan 2024 12:00:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 21:48:34.788636
Title: Explaining RL Decisions with Trajectories
Title（参考訳）: 軌道によるRL決定の説明
Authors: Shripad Vilasrao Deshmukh, Arpan Dasgupta, Balaji Krishnamurthy, Nan Jiang, Chirag Agarwal, Georgios Theocharous, Jayakumar Subramanian
Abstract要約: 説明は、実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
参考スコア（独自算出の注目度）: 28.261758841898697
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Explanation is a key component for the adoption of reinforcement learning (RL) in many real-world decision-making problems. In the literature, the explanation is often provided by saliency attribution to the features of the RL agent's state. In this work, we propose a complementary approach to these explanations, particularly for offline RL, where we attribute the policy decisions of a trained RL agent to the trajectories encountered by it during training. To do so, we encode trajectories in offline training data individually as well as collectively (encoding a set of trajectories). We then attribute policy decisions to a set of trajectories in this encoded space by estimating the sensitivity of the decision with respect to that set. Further, we demonstrate the effectiveness of the proposed approach in terms of quality of attributions as well as practical scalability in diverse environments that involve both discrete and continuous state and action spaces such as grid-worlds, video games (Atari) and continuous control (MuJoCo). We also conduct a human study on a simple navigation task to observe how their understanding of the task compares with data attributed for a trained RL policy. Keywords -- Explainable AI, Verifiability of AI Decisions, Explainable RL.
Abstract（参考訳）: 説明は実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。文献では、この説明は、しばしばRLエージェントの状態の特徴に対する塩分濃度の属性によって提供される。本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。そのため、オフライントレーニングデータのトラジェクトリを個別に、また集合的に(一連のトラジェクトリを符号化する)トラジェクトリを符号化する。そして、その集合に対する決定の感度を推定することにより、この符号化空間における一連の軌道にポリシー決定を関連付ける。さらに,グリッドワールド,ビデオゲーム(atari),連続制御(mujoco)といった離散状態と連続状態とアクション空間の両方を含む多様な環境において,属性の質と実用的なスケーラビリティの観点から,提案手法の有効性を実証する。また、簡単なナビゲーションタスクについて人間による研究を行い、そのタスクに対する理解が、訓練されたRLポリシーに起因するデータとどのように比較されるかを観察する。キーワード - 説明可能なAI、AI決定の検証可能性、説明可能なRL。

関連論文リスト

Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-10-28T05:29:38Z)
Diffusion-Based Offline RL for Improved Decision-Making in Augmented ARC Task [10.046325073900297]
SOLAR(Abstraction and Reasoning)のための拡張オフラインRLデータセットを提案する。 SOLARは、十分な経験データを提供することで、オフラインのRLメソッドの適用を可能にする。本実験は, 簡単なARCタスクにおけるオフラインRL手法の有効性を実証する。
論文参考訳（メタデータ） (2024-10-15T06:48:27Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making [6.243971093896272]
本稿では,ベースラインモデルとしてポリシー最適化に基づくDRLアルゴリズムを用い,オープンソースのAVシミュレーション環境にマルチヘッドアテンションフレームワークを付加する。第1頭部の重みは隣接する車両の位置を符号化し、第2頭部は先頭車両のみに焦点を当てている。
論文参考訳（メタデータ） (2024-03-18T02:59:13Z)
Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文参考訳（メタデータ） (2024-01-21T23:50:46Z)
Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。オフラインRLの主な課題の1つは、分散シフトである。分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-27T19:19:30Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文参考訳（メタデータ） (2023-09-04T09:09:54Z)
Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。 RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文参考訳（メタデータ） (2021-08-20T05:18:50Z)
EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文参考訳（メタデータ） (2020-07-21T21:13:02Z)
RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。 RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文参考訳（メタデータ） (2020-06-24T17:14:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。