論文の概要: Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and
Convex Q-Learning in Continuous Time
- arxiv url: http://arxiv.org/abs/2210.08131v1
- Date: Fri, 14 Oct 2022 21:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:33:13.717561
- Title: Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and
Convex Q-Learning in Continuous Time
- Title(参考訳): ハミルトン・ヤコビ・ベルマン方程式と凸q-ラーニングの連続時間におけるモデルフリーキャラクタリゼーション
- Authors: Fan Lu, Joel Mathias, Sean Meyn and Karanjit Kalsi
- Abstract要約: 本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。
i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。
離散時間設定から最近の結果の非自明な拡張によって制約領域の有界性を特徴づける。
- 参考スコア(独自算出の注目度): 1.4050836886292872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convex Q-learning is a recent approach to reinforcement learning, motivated
by the possibility of a firmer theory for convergence, and the possibility of
making use of greater a priori knowledge regarding policy or value function
structure. This paper explores algorithm design in the continuous time domain,
with finite-horizon optimal control objective. The main contributions are (i)
Algorithm design is based on a new Q-ODE, which defines the model-free
characterization of the Hamilton-Jacobi-Bellman equation. (ii) The Q-ODE
motivates a new formulation of Convex Q-learning that avoids the approximations
appearing in prior work. The Bellman error used in the algorithm is defined by
filtered measurements, which is beneficial in the presence of measurement
noise. (iii) A characterization of boundedness of the constraint region is
obtained through a non-trivial extension of recent results from the discrete
time setting. (iv) The theory is illustrated in application to resource
allocation for distributed energy resources, for which the theory is ideally
suited.
- Abstract(参考訳): convex q-learningは強化学習への最近のアプローチであり、収束のための強固な理論の可能性と、政策や価値関数構造に関する事前知識を活用する可能性に動機づけられている。
本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。
主な貢献は
(i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。
(ii)q-odeは,先行研究に現れる近似を避けた凸q-ラーニングの新しい定式化を動機付ける。
このアルゴリズムで使用されるベルマン誤差は、測定ノイズの存在下で有益であるフィルタ測定によって定義される。
(iii) 離散時間設定からの最近の結果の非自明な拡張により、制約領域の有界性を評価する。
(iv)この理論は、その理論が理想的に適合する分散型エネルギー資源の資源配分への応用において示される。
関連論文リスト
- Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
論文 参考訳(メタデータ) (2023-09-10T18:24:43Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Stability of Q-Learning Through Design and Optimism [0.0]
本論文は近似とQ-ラーニングに関するチュートリアルである。
これは、2023年6月にナンシー・フランスで発表されたINFORMS APS inaugural Applied Probability Trust Plenary Lectureの詳細を提供する。
また,これらのアルゴリズムの安定性を確保するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T20:04:26Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Can Temporal-Difference and Q-Learning Learn Representation? A
Mean-Field Theory [117.82588669343387]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。