Fugu-MT 論文翻訳(概要): A Survey on Causal Reinforcement Learning

論文の概要: A Survey on Causal Reinforcement Learning

arxiv url: http://arxiv.org/abs/2302.05209v3
Date: Thu, 1 Jun 2023 13:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-03 00:23:35.882529
Title: A Survey on Causal Reinforcement Learning
Title（参考訳）: 因果強化学習に関する調査研究
Authors: Yan Zeng, Ruichu Cai, Fuchun Sun, Libo Huang, Zhifeng Hao
Abstract要約: 本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
参考スコア（独自算出の注目度）: 41.645270300009436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Reinforcement Learning (RL) achieves tremendous success in sequential decision-making problems of many domains, it still faces key challenges of data inefficiency and the lack of interpretability. Interestingly, many researchers have leveraged insights from the causality literature recently, bringing forth flourishing works to unify the merits of causality and address well the challenges from RL. As such, it is of great necessity and significance to collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL methods, and investigate the potential functionality from causality toward RL. In particular, we divide existing CRL approaches into two categories according to whether their causality-based information is given in advance or not. We further analyze each category in terms of the formalization of different models, ranging from the Markov Decision Process (MDP), Partially Observed Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment Regime (DTR). Moreover, we summarize the evaluation matrices and open sources while we discuss emerging applications, along with promising prospects for the future development of CRL.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は多くの領域の逐次決定問題において大きな成功を収める一方で、データ非効率性と解釈可能性の欠如という重要な課題に直面している。興味深いことに、近年多くの研究者が因果関係の文献からの洞察を活用して、因果関係の利点を統一し、RLの課題にうまく対処するための卓越した成果を生み出している。そのため、これらの因果強化学習(CRL)の成果を照合し、CRL手法のレビューを行い、因果性からRLへの潜在的な機能について検討することが極めて重要である。特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。さらに、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から各カテゴリを解析する。さらに,今後のCRL開発に向けての展望とともに,新たなアプリケーションについて議論しながら,評価行列とオープンソースを要約する。

関連論文リスト

Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms and Applications [35.74838344207327]
因果強化学習(CRL)は、因果関係を明示的にモデル化することによって、課題に対する有望な解決策を提供する。我々は既存のアプローチを因果表現学習、反ファクトポリシー最適化、オフライン因果RL、因果伝達学習、因果説明可能性に分類する。我々は、堅牢で、一般化可能で、解釈可能な人工知能システムを開発するためのCRLの可能性について、今後の研究指針を提供する。
論文参考訳（メタデータ） (2025-12-19T23:37:22Z)
A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文参考訳（メタデータ） (2025-09-10T17:59:43Z)
Statistical and Algorithmic Foundations of Reinforcement Learning [45.707617428078585]
近年,シーケンシャルラーニング (RL) が注目されている。我々は、RLにおけるいくつかの重要な発展を紹介することを目指しており、新しいアイデアと古典的なトピックの関連を強調している。
論文参考訳（メタデータ） (2025-07-19T02:42:41Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
A Survey of Continual Reinforcement Learning [37.12149196139624]
強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定問題を解決するための重要な機械学習パラダイムである。タスクをまたいで一般化するRLの限られた能力は、動的および実世界の環境での適用性を制限する。 CRL(Continuous Reinforcement Learning)は、これらの制限に対処するための有望な研究方向として登場した。
論文参考訳（メタデータ） (2025-06-27T03:10:20Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
A Review of Reinforcement Learning in Financial Applications [12.813502592542388]
強化学習(RL)は、金融における意思決定タスクを解決する大きな可能性を示している。我々は、金融業界におけるRLの広範な活用を妨げる説明可能性、マルコフ決定プロセス(MDP)モデリング、ロバスト性などの課題を明らかにする。本稿では,ベンチマーク,コンテキストRL,マルチエージェントRL,モデルベースRLなどの今後の研究方向性を提案する。
論文参考訳（メタデータ） (2024-11-01T01:03:10Z)
Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination [7.162274565861427]
動的治療体制におけるオフライン強化学習は前例のない機会と課題が混在している。不整合性や潜在的に決定的でない評価指標などの懸念を引用して、動的治療体制におけるRLの適用の再評価を論じる。評価指標の変化やマルコフ決定過程(MDP)の定式化によって,RLアルゴリズムの性能が著しく変化することを示した。
論文参考訳（メタデータ） (2024-05-28T20:03:18Z)
Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文参考訳（メタデータ） (2023-03-07T01:38:42Z)
Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文参考訳（メタデータ） (2021-11-29T06:29:49Z)
Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文参考訳（メタデータ） (2021-02-18T23:50:20Z)
Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文参考訳（メタデータ） (2020-12-25T02:35:27Z)
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study [50.79125250286453]
オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
論文参考訳（メタデータ） (2020-06-10T17:59:03Z)
Comprehensive Review of Deep Reinforcement Learning Methods and Applications in Economics [9.080472817672264]
DRLの特徴は、高次元問題に適用可能なスケーラビリティと、経済データのノイズおよび非線形パターンとを併用したスケーラビリティである。 DRLのアーキテクチャを経済応用に適用し,複雑性,堅牢性,精度,性能,計算タスク,リスク制約,収益性を明らかにする。
論文参考訳（メタデータ） (2020-03-21T14:07:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。