論文の概要: Causal Inference Q-Network: Toward Resilient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.09677v1
- Date: Thu, 18 Feb 2021 23:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 00:19:46.727003
- Title: Causal Inference Q-Network: Toward Resilient Reinforcement Learning
- Title(参考訳): 因果推論Q-Network:Resilient Reinforcement Learningを目指して
- Authors: Chao-Han Huck Yang, I-Te Danny Hung, Yi Ouyang, Pin-Yu Chen
- Abstract要約: 観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
- 参考スコア(独自算出の注目度): 57.96312207429202
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep reinforcement learning (DRL) has demonstrated impressive performance in
various gaming simulators and real-world applications. In practice, however, a
DRL agent may receive faulty observation by abrupt interferences such as
black-out, frozen-screen, and adversarial perturbation. How to design a
resilient DRL algorithm against these rare but mission-critical and
safety-crucial scenarios is an important yet challenging task. In this paper,
we consider a resilient DRL framework with observational interferences. Under
this framework, we discuss the importance of the causal relation and propose a
causal inference based DRL algorithm called causal inference Q-network (CIQ).
We evaluate the performance of CIQ in several benchmark DRL environments with
different types of interferences. Our experimental results show that the
proposed CIQ method could achieve higher performance and more resilience
against observational interferences.
- Abstract(参考訳): 深層強化学習(DRL)は,様々なゲームシミュレータや実世界のアプリケーションで優れた性能を発揮している。
しかし実際には、DRLエージェントは、ブラックアウト、フリーズスクリーン、逆乱などの突然の干渉によって異常な観察を受けることがあります。
これらのまれなミッションクリティカルかつ安全クリティカルなシナリオに対してレジリエントなDRLアルゴリズムを設計する方法は、重要かつ困難な作業です。
本稿では,観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果関係の重要性を論じ、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
異なる種類の干渉を持つ複数のベンチマークDRL環境におけるCIQの性能を評価する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
関連論文リスト
- CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning [11.13226491866178]
時系列を意味のあるサブシーケンスに分割する新しい手法を提案し,これらのサブシーケンスに基づいて時系列を表現する。
このサブシーケンスは、トレーニング結果に大きな影響を及ぼす基本的な因果的要因を特定するために因果推論に使用される。
いくつかの実験は、我々のアプローチが共通の環境で実現可能であることを実証し、DRLトレーニングの有効性を高め、トレーニングプロセスに一定のレベルの説明可能性を与える能力を確認した。
論文 参考訳(メタデータ) (2024-05-14T07:23:10Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。
ここでは、新規で弱い制約に基づく識別可能性を示す。
また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T10:38:02Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - A Survey on Causal Reinforcement Learning [41.645270300009436]
本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。
特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。
我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
論文 参考訳(メタデータ) (2023-02-10T12:25:08Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。