論文の概要: A Review of Off-Policy Evaluation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.06355v1
- Date: Tue, 13 Dec 2022 03:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:18:46.591722
- Title: A Review of Off-Policy Evaluation in Reinforcement Learning
- Title(参考訳): 強化学習におけるオフポリシー評価の見直し
- Authors: Masatoshi Uehara, Chengchun Shi, Nathan Kallus
- Abstract要約: 主に、強化学習における最も基本的なトピックの1つである、オフ・ポリシー評価(OPE)に焦点を当てています。
我々は,OPEの効率バウンダリ,既存のOPE手法のいくつか,その統計的性質,その他の研究方向について論じる。
- 参考スコア(独自算出の注目度): 72.82459524257446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is one of the most vibrant research frontiers in
machine learning and has been recently applied to solve a number of challenging
problems. In this paper, we primarily focus on off-policy evaluation (OPE), one
of the most fundamental topics in RL. In recent years, a number of OPE methods
have been developed in the statistics and computer science literature. We
provide a discussion on the efficiency bound of OPE, some of the existing
state-of-the-art OPE methods, their statistical properties and some other
related research directions that are currently actively explored.
- Abstract(参考訳): 強化学習(rl)は、機械学習における最も活発な研究分野の1つであり、近年、多くの課題を解決するために適用されている。
本稿では、主に、RLにおける最も基本的なトピックである、オフ・ポリティ・アセスメント(OPE)に焦点を当てる。
近年、統計学や計算機科学の文献において、いくつかのope手法が開発されている。
我々は,OPEの効率バウンダリ,既存のOPE手法のいくつか,その統計的性質,その他現在活発に研究されている研究方向について論じる。
関連論文リスト
- Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - A Survey on Few-Shot Class-Incremental Learning [11.68962265057818]
FSCIL(Few-shot class-incremental Learning)は、ディープニューラルネットワークが新しいタスクを学習する上で重要な課題である。
本稿では, FSCILに関する包括的調査を行う。
FSCILはコンピュータビジョンの様々な分野で大きな成果を上げている。
論文 参考訳(メタデータ) (2023-04-17T10:15:08Z) - Knowledge-enhanced Neural Machine Reasoning: A Review [67.51157900655207]
既存の知識強化手法を2つの主要なカテゴリと4つのサブカテゴリに分類する新しい分類法を導入する。
我々は、現在のアプリケーションドメインを解明し、将来的な研究の展望について洞察を提供する。
論文 参考訳(メタデータ) (2023-02-04T04:54:30Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Distributed Deep Reinforcement Learning: An Overview [0.0]
本稿では,DRLにおける分散アプローチの役割について調査する。
本稿では,DRLにおける分散手法の活用方法に大きな影響を与える重要な研究成果について概説する。
また,これらの手法を異なるタスクで評価し,その性能を1人のアクターと学習者エージェントで比較する。
論文 参考訳(メタデータ) (2020-11-22T13:24:35Z) - What Matters In On-Policy Reinforcement Learning? A Large-Scale
Empirical Study [50.79125250286453]
オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。
しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。
これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。
我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
論文 参考訳(メタデータ) (2020-06-10T17:59:03Z) - Reinforcement Learning via Fenchel-Rockafellar Duality [97.86417365464068]
凸双対性の基本概念を概観し、非常に一般的で非常に有用なフェンシェル・ロッカフェラー双対性に焦点をあてる。
この双対性は、政策評価や最適化、オンラインまたはオフライン学習、割引または未公表の報酬など、さまざまな強化学習設定にどのように適用できるかを要約する。
論文 参考訳(メタデータ) (2020-01-07T02:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。