論文の概要: A Survey on Causal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.05209v1
- Date: Fri, 10 Feb 2023 12:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 15:53:44.920353
- Title: A Survey on Causal Reinforcement Learning
- Title(参考訳): 因果強化学習に関する調査研究
- Authors: Yan Zeng, Ruichu Cai, Fuchun Sun, Libo Huang, Zhifeng Hao
- Abstract要約: 本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。
特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。
我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
- 参考スコア(独自算出の注目度): 41.645270300009436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning (RL) achieves tremendous success in sequential
decision-making problems of many domains, it still faces key challenges of data
inefficiency and the lack of interpretability. Interestingly, many researchers
have leveraged insights from the causality literature recently, bringing forth
flourishing works to unify the merits of causality and address well the
challenges from RL. As such, it is of great necessity and significance to
collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL
methods, and investigate the potential functionality from causality toward RL.
In particular, we divide existing CRL approaches into two categories according
to whether their causality-based information is given in advance or not. We
further analyze each category in terms of the formalization of different
models, ranging from the Markov Decision Process (MDP), Partially Observed
Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment
Regime (DTR). Moreover, we summarize the evaluation matrices and open sources
while we discuss emerging applications, along with promising prospects for the
future development of CRL.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は多くの領域の逐次決定問題において大きな成功を収める一方で、データ非効率性と解釈可能性の欠如という重要な課題に直面している。
興味深いことに、近年多くの研究者が因果関係の文献からの洞察を活用して、因果関係の利点を統一し、RLの課題にうまく対処するための卓越した成果を生み出している。
そのため、これらの因果強化学習(CRL)の成果を照合し、CRL手法のレビューを行い、因果性からRLへの潜在的な機能について検討することが極めて重要である。
特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。
さらに、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から各カテゴリを解析する。
さらに,今後のCRL開発に向けての展望とともに,新たなアプリケーションについて議論しながら,評価行列とオープンソースを要約する。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - A Review of Reinforcement Learning in Financial Applications [12.813502592542388]
強化学習(RL)は、金融における意思決定タスクを解決する大きな可能性を示している。
我々は、金融業界におけるRLの広範な活用を妨げる説明可能性、マルコフ決定プロセス(MDP)モデリング、ロバスト性などの課題を明らかにする。
本稿では,ベンチマーク,コンテキストRL,マルチエージェントRL,モデルベースRLなどの今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-11-01T01:03:10Z) - Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination [7.162274565861427]
動的治療体制におけるオフライン強化学習は 前例のない機会と課題が混在している。
不整合性や潜在的に決定的でない評価指標などの懸念を引用して、動的治療体制におけるRLの適用の再評価を論じる。
評価指標の変化やマルコフ決定過程(MDP)の定式化によって,RLアルゴリズムの性能が著しく変化することを示した。
論文 参考訳(メタデータ) (2024-05-28T20:03:18Z) - Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。
本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文 参考訳(メタデータ) (2023-03-07T01:38:42Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z) - What Matters In On-Policy Reinforcement Learning? A Large-Scale
Empirical Study [50.79125250286453]
オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。
しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。
これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。
我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
論文 参考訳(メタデータ) (2020-06-10T17:59:03Z) - Comprehensive Review of Deep Reinforcement Learning Methods and
Applications in Economics [9.080472817672264]
DRLの特徴は、高次元問題に適用可能なスケーラビリティと、経済データのノイズおよび非線形パターンとを併用したスケーラビリティである。
DRLのアーキテクチャを経済応用に適用し,複雑性,堅牢性,精度,性能,計算タスク,リスク制約,収益性を明らかにする。
論文 参考訳(メタデータ) (2020-03-21T14:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。