論文の概要: Interpretable Deep Reinforcement Learning for Green Security Games with
Real-Time Information
- arxiv url: http://arxiv.org/abs/2211.04987v1
- Date: Wed, 9 Nov 2022 16:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:20:15.023088
- Title: Interpretable Deep Reinforcement Learning for Green Security Games with
Real-Time Information
- Title(参考訳): リアルタイム情報を用いたグリーンセキュリティゲームのための解釈可能な深層強化学習
- Authors: Vishnu Dutt Sharma, John P. Dickerson, Pratap Tokekar
- Abstract要約: リアルタイム情報(GSG-I)を備えたグリーンセキュリティゲームは、エージェントの動きに関するリアルタイム情報を、典型的なGSGの定式化に付加する。
本稿では,DDRLアルゴリズムが行う決定を説明するために,可視化を生成するGSG-Iの解釈可能なDRL法を提案する。
- 参考スコア(独自算出の注目度): 42.32107591987658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Green Security Games with real-time information (GSG-I) add the real-time
information about the agents' movement to the typical GSG formulation. Prior
works on GSG-I have used deep reinforcement learning (DRL) to learn the best
policy for the agent in such an environment without any need to store the huge
number of state representations for GSG-I. However, the decision-making process
of DRL methods is largely opaque, which results in a lack of trust in their
predictions. To tackle this issue, we present an interpretable DRL method for
GSG-I that generates visualization to explain the decisions taken by the DRL
algorithm. We also show that this approach performs better and works well with
a simpler training regimen compared to the existing method.
- Abstract(参考訳): リアルタイム情報(GSG-I)を備えたグリーンセキュリティゲームは、エージェントの動きに関するリアルタイム情報をGSGの定式化に追加する。
GSG-Iの先行研究は、深層強化学習(DRL)を用いて、GSG-Iの膨大な数の状態表現を保存することなく、エージェントの最良のポリシーを学習してきた。
しかし、DRL法の決定過程はほとんど不透明であり、その結果、予測に対する信頼が欠如している。
この問題に対処するために,DDRLアルゴリズムが行う決定を説明する可視化を生成するGSG-Iの解釈可能なDRL法を提案する。
また,本手法は既存の手法と比較して,より簡単なトレーニングレジームでうまく機能することを示す。
関連論文リスト
- Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Policy Gradients Incorporating the Future [66.20567145291342]
我々はエージェントが明示的に予測することなく「未来を見る」方法を紹介した。
我々は,エージェントが過去の経験を学習中に,その将来に何が起こったのかを観察できるように提案する。
これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
論文 参考訳(メタデータ) (2021-08-04T14:57:11Z) - GDI: Rethinking What Makes Reinforcement Learning Different From
Supervised Learning [8.755783981297396]
我々は、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムを、一般化データ分散イテレーション(GDI)と呼ばれるより一般的なバージョンに拡張する。
提案アルゴリズムは, 平均正規化スコア(HNS)9620.98%, 中央値HNS1146.39%, HWRB22を200フレームのトレーニングフレームで達成した。
論文 参考訳(メタデータ) (2021-06-11T08:31:12Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。