論文の概要: Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and
Convex Q-Learning in Continuous Time
- arxiv url: http://arxiv.org/abs/2210.08131v1
- Date: Fri, 14 Oct 2022 21:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:33:13.717561
- Title: Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and
Convex Q-Learning in Continuous Time
- Title(参考訳): ハミルトン・ヤコビ・ベルマン方程式と凸q-ラーニングの連続時間におけるモデルフリーキャラクタリゼーション
- Authors: Fan Lu, Joel Mathias, Sean Meyn and Karanjit Kalsi
- Abstract要約: 本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。
i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。
離散時間設定から最近の結果の非自明な拡張によって制約領域の有界性を特徴づける。
- 参考スコア(独自算出の注目度): 1.4050836886292872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convex Q-learning is a recent approach to reinforcement learning, motivated
by the possibility of a firmer theory for convergence, and the possibility of
making use of greater a priori knowledge regarding policy or value function
structure. This paper explores algorithm design in the continuous time domain,
with finite-horizon optimal control objective. The main contributions are (i)
Algorithm design is based on a new Q-ODE, which defines the model-free
characterization of the Hamilton-Jacobi-Bellman equation. (ii) The Q-ODE
motivates a new formulation of Convex Q-learning that avoids the approximations
appearing in prior work. The Bellman error used in the algorithm is defined by
filtered measurements, which is beneficial in the presence of measurement
noise. (iii) A characterization of boundedness of the constraint region is
obtained through a non-trivial extension of recent results from the discrete
time setting. (iv) The theory is illustrated in application to resource
allocation for distributed energy resources, for which the theory is ideally
suited.
- Abstract(参考訳): convex q-learningは強化学習への最近のアプローチであり、収束のための強固な理論の可能性と、政策や価値関数構造に関する事前知識を活用する可能性に動機づけられている。
本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。
主な貢献は
(i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。
(ii)q-odeは,先行研究に現れる近似を避けた凸q-ラーニングの新しい定式化を動機付ける。
このアルゴリズムで使用されるベルマン誤差は、測定ノイズの存在下で有益であるフィルタ測定によって定義される。
(iii) 離散時間設定からの最近の結果の非自明な拡張により、制約領域の有界性を評価する。
(iv)この理論は、その理論が理想的に適合する分散型エネルギー資源の資源配分への応用において示される。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
論文 参考訳(メタデータ) (2023-09-10T18:24:43Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。