論文の概要: XDQN: Inherently Interpretable DQN through Mimicking
- arxiv url: http://arxiv.org/abs/2301.03043v1
- Date: Sun, 8 Jan 2023 13:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:36:33.625315
- Title: XDQN: Inherently Interpretable DQN through Mimicking
- Title(参考訳): XDQN: ミスミキシングによる本質的に解釈可能なDQN
- Authors: Andreas Kontogiannis and George Vouros
- Abstract要約: 我々は、模倣によって訓練された解釈可能なポリシーモデルを用いて、DQNの説明可能なバリエーションであるXDQNを提案する。
XDQNは,航空交通管理の需要・容量バランス問題に関連する3つのシナリオで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep reinforcement learning (DRL) methods have been successfully
applied in challenging tasks, their application in real-world operational
settings is challenged by methods' limited ability to provide explanations.
Among the paradigms for explainability in DRL is the interpretable box design
paradigm, where interpretable models substitute inner constituent models of the
DRL method, thus making the DRL method "inherently" interpretable. In this
paper we explore this paradigm and we propose XDQN, an explainable variation of
DQN, which uses an interpretable policy model trained through mimicking. XDQN
is challenged in a complex, real-world operational multi-agent problem, where
agents are independent learners solving congestion problems. Specifically, XDQN
is evaluated in three MARL scenarios, pertaining to the demand-capacity
balancing problem of air traffic management. XDQN achieves performance similar
to that of DQN, while its abilities to provide global models' interpretations
and interpretations of local decisions are demonstrated.
- Abstract(参考訳): 深層強化学習(DRL)手法は課題にうまく適用されているが、実際の運用環境での応用は、説明を提供する方法の限られた能力によって挑戦されている。
DRLにおける説明可能性のパラダイムの1つは、解釈可能なボックス設計パラダイムであり、解釈可能なモデルはDRL法の内部構成モデルを代用し、DRL法を「本質的に」解釈できる。
本稿では、このパラダイムを考察し、模倣によって訓練された解釈可能なポリシーモデルを用いたDQNの説明可能なバリエーションであるXDQNを提案する。
XDQNは、エージェントが独立した学習者である複雑な実世界のマルチエージェント問題に挑戦する。
具体的には、XDQNは航空交通管理における需要-容量バランスの問題に関連する3つのMARLシナリオで評価される。
XDQNはDQNと同様のパフォーマンスを実現し、グローバルモデルの解釈とローカル決定の解釈を提供する能力を示す。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - Counterfactual Explainer Framework for Deep Reinforcement Learning
Models Using Policy Distillation [14.487499365398333]
本稿では,ブラックボックスDRLによる意思決定を説明するために,新たなCF(Counterfactual)説明フレームワークを提案する。
本分析は,DRLの深い基盤となる様々な決定に対して,提案手法が妥当かつ有意義に説明できることを示す。
論文 参考訳(メタデータ) (2023-05-25T23:30:48Z) - Dependability Analysis of Deep Reinforcement Learning based Robotics and
Autonomous Systems [10.499662874457998]
深層強化学習(DRL)のブラックボックスの性質と不確実な展開環境は、その信頼性に新たな課題をもたらす。
本稿では、時間論理における信頼性特性のセットを定義し、DRL駆動RASのリスク/障害のダイナミクスをモデル化するための離散時間マルコフ連鎖(DTMC)を構築する。
実験の結果,提案手法は総合評価の枠組みとして有効であり,また,トレーニングにおいてトレードオフを必要とする可能性のある特性の相違を明らかにする。
論文 参考訳(メタデータ) (2021-09-14T08:42:29Z) - A new interpretable unsupervised anomaly detection method based on
residual explanation [47.187609203210705]
本稿では,大規模システムにおけるAEベースのADの制限に対処する新しい解釈可能性手法であるRXPを提案する。
実装の単純さ、計算コストの低さ、決定論的振る舞いが特徴である。
実鉄道路線のデータを用いた実験において,提案手法はSHAPよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-14T15:35:45Z) - Assured RL: Reinforcement Learning with Almost Sure Constraints [0.0]
我々は、状態遷移とアクション三重項に対するほぼ確実に制約のあるマルコフ決定過程の最適方針を求める問題を考える。
バリアベースの分解を満たす値とアクション値関数を定義する。
我々は,Q-Learningに基づくバリア学習アルゴリズムを開発し,そのような安全でない状態-動作ペアを同定する。
論文 参考訳(メタデータ) (2020-12-24T00:29:28Z) - Chance-Constrained Control with Lexicographic Deep Reinforcement
Learning [77.34726150561087]
本稿では,レキシックなDeep Reinforcement Learning(DeepRL)に基づく確率制約マルコフ決定プロセスを提案する。
有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。
論文 参考訳(メタデータ) (2020-10-19T13:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。