論文の概要: A Tutorial Introduction to Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.00803v1
- Date: Mon, 3 Apr 2023 08:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:06:45.699466
- Title: A Tutorial Introduction to Reinforcement Learning
- Title(参考訳): 強化学習入門
- Authors: Mathukumalli Vidyasagar
- Abstract要約: 本稿では,強化学習(Reinforcement Learning, RL)の簡単な調査について述べる。
論文の範囲にはMarkov Reward Processes、Markov Decision Processes、近似アルゴリズム、時間差分学習や$Q$-learningといった広く使われているアルゴリズムが含まれる。
- 参考スコア(独自算出の注目度): 1.9544213396776275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a brief survey of Reinforcement Learning (RL), with
particular emphasis on Stochastic Approximation (SA) as a unifying theme. The
scope of the paper includes Markov Reward Processes, Markov Decision Processes,
Stochastic Approximation algorithms, and widely used algorithms such as
Temporal Difference Learning and $Q$-learning.
- Abstract(参考訳): 本稿では,Stochastic Approximation(SA)を統一テーマとして,強化学習(RL)に関する簡単な調査を行う。
論文の範囲はMarkov Reward Processes、Markov Decision Processes、Stochastic Approximation Algorithm、時間差分学習や$Q$-learningといった広く使われているアルゴリズムを含む。
関連論文リスト
- PBES: PCA Based Exemplar Sampling Algorithm for Continual Learning [0.0]
本稿では、主成分分析(PCA)と中央値サンプリングに基づく新しい模範選択手法と、クラス増分学習の設定におけるニューラルネットワークトレーニング方式を提案する。
このアプローチは、データの異常値による落とし穴を回避し、さまざまなインクリメンタル機械学習モデルの実装と使用の両方が容易である。
論文 参考訳(メタデータ) (2023-12-14T21:27:38Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Polynomial-Time Algorithms for Counting and Sampling Markov Equivalent
DAGs with Applications [6.03124479597323]
マルコフ同値類からの有向非巡回グラフの数え上げとサンプリングは因果解析の基本的な課題である。
これらのタスクはグラフィカルな時間で実行可能であることを示す。
我々のアルゴリズムは効果的で容易に実装できる。
論文 参考訳(メタデータ) (2022-05-05T13:56:13Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Average-Reward Learning and Planning with Options [9.258958295945467]
我々は,減算マルコフ決定過程(MDP)から平均回帰MDPまで,強化学習における時間的抽象化のためのオプションフレームワークを拡張した。
コントリビューションには、一般の外部選択型学習アルゴリズム、学習値とモデルのためのオプション内アルゴリズム、および学習アルゴリズムのサンプルベース計画亜種が含まれている。
論文 参考訳(メタデータ) (2021-10-26T16:58:05Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文 参考訳(メタデータ) (2020-09-05T21:32:42Z) - Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。
この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文 参考訳(メタデータ) (2020-06-13T16:10:03Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。