論文の概要: Formalising the Foundations of Discrete Reinforcement Learning in
Isabelle/HOL
- arxiv url: http://arxiv.org/abs/2112.05996v1
- Date: Sat, 11 Dec 2021 14:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:37:14.523947
- Title: Formalising the Foundations of Discrete Reinforcement Learning in
Isabelle/HOL
- Title(参考訳): Isabelle/HOLにおける離散強化学習の基礎の定式化
- Authors: Mark Chevallier and Jacques Fleuriot
- Abstract要約: 我々は、動的プログラミングに必要な基礎と、そのようなプロセスに対する強化学習エージェントの使用に焦点を当てる。
我々は、割引係数が1以下であるような、普遍的に最適な政策の存在を証明している。
最後に、値反復とポリシーアルゴリズムが有限時間で機能することを証明し、それぞれにエプシロン最適化と完全最適ポリシーを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a formalisation of finite Markov decision processes with rewards
in the Isabelle theorem prover. We focus on the foundations required for
dynamic programming and the use of reinforcement learning agents over such
processes. In particular, we derive the Bellman equation from first principles
(in both scalar and vector form), derive a vector calculation that produces the
expected value of any policy p, and go on to prove the existence of a
universally optimal policy where there is a discounting factor less than one.
Lastly, we prove that the value iteration and the policy iteration algorithms
work in finite time, producing an epsilon-optimal and a fully optimal policy
respectively.
- Abstract(参考訳): 我々はイザベル定理証明器に報酬を伴う有限マルコフ決定過程の形式化を示す。
動的プログラミングに必要な基盤と,そのようなプロセスに対する強化学習エージェントの利用に注目した。
特に、ベルマン方程式は第一原理(スカラーとベクトル形式の両方)から導出し、任意のポリシー p の期待値を生成するベクトル計算を導出し、さらに1未満の割引係数が存在するような普遍的に最適なポリシーの存在を証明する。
最後に、値反復とポリシー反復アルゴリズムが有限時間で動作し、それぞれがエプシロン最適化と完全最適ポリシーを生成することを証明する。
関連論文リスト
- Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return [1.3162012586770577]
軌道上の非線形選好を用いた多目的強化学習について検討した。
非線形最適化のためのベルマン最適性の拡張形式を導出する。
アルゴリズムによって計算される最適ポリシーと代替基準との間には,かなりのギャップがあることが示される。
論文 参考訳(メタデータ) (2023-11-05T02:11:07Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - A Subgame Perfect Equilibrium Reinforcement Learning Approach to
Time-inconsistent Problems [4.314956204483074]
我々は,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習フレームワークを構築した。
我々は,SPERLを解き,両課題に対処する,BPI(backward Policy iteration)と呼ばれるアルゴリズムの新たなクラスを提案する。
トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-10-27T09:21:35Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - CertRL: Formalizing Convergence Proofs for Value and Policy Iteration in
Coq [1.154957229836278]
強化学習アルゴリズムは,長期報酬を最適化することにより,確率的環境における逐次的意思決定問題を解決する。
本稿では、有限状態マルコフ決定過程に対する値とポリシーの反復という、2つの正準強化学習アルゴリズムの形式化を開発する。
CertRLライブラリは、Markov決定プロセスと強化学習アルゴリズムに関する特性を証明するための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-09-23T22:28:17Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z) - Kernel Taylor-Based Value Function Approximation for Continuous-State
Markov Decision Processes [5.894659354028797]
我々は,カーネルベースのポリシー反復アルゴリズムを提案し,連続状態マルコフ決定過程(MDP)を解く。
提案手法は, 簡易計画シナリオと現実計画シナリオの両方において, 広範囲なシミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-06-03T01:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。