論文の概要: q-Learning in Continuous Time
- arxiv url: http://arxiv.org/abs/2207.00713v3
- Date: Mon, 24 Apr 2023 00:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 00:17:46.460395
- Title: q-Learning in Continuous Time
- Title(参考訳): 連続時間におけるq-learning
- Authors: Yanwei Jia and Xun Yu Zhou
- Abstract要約: エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
- 参考スコア(独自算出の注目度): 1.4213973379473654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the continuous-time counterpart of Q-learning for reinforcement
learning (RL) under the entropy-regularized, exploratory diffusion process
formulation introduced by Wang et al. (2020). As the conventional (big)
Q-function collapses in continuous time, we consider its first-order
approximation and coin the term ``(little) q-function". This function is
related to the instantaneous advantage rate function as well as the
Hamiltonian. We develop a ``q-learning" theory around the q-function that is
independent of time discretization. Given a stochastic policy, we jointly
characterize the associated q-function and value function by martingale
conditions of certain stochastic processes, in both on-policy and off-policy
settings. We then apply the theory to devise different actor-critic algorithms
for solving underlying RL problems, depending on whether or not the density
function of the Gibbs measure generated from the q-function can be computed
explicitly. One of our algorithms interprets the well-known Q-learning
algorithm SARSA, and another recovers a policy gradient (PG) based
continuous-time algorithm proposed in Jia and Zhou (2022b). Finally, we conduct
simulation experiments to compare the performance of our algorithms with those
of PG-based algorithms in Jia and Zhou (2022b) and time-discretized
conventional Q-learning algorithms.
- Abstract(参考訳): wang et al. (2020) によって導入されたエントロピー正規化探索拡散過程定式化の下での強化学習(rl)のためのq-learningの連続時間対応について検討した。
従来の(大きな)q-関数は連続時間に崩壊するので、その一階近似を考え、``(little) q-関数という用語をつくりだす。この関数は、ハミルトニアンと同様に瞬時有利率関数と関係している。我々は、時間離散化とは無関係なq-函数の「q-ラーニング」理論を展開する。
確率的政策が与えられた場合、ある確率的過程のマーチンゲール条件によって関連するq-関数と値関数を、オン・ポリティクスとオフ・ポリティクスの両方で共同で特徴付ける。
次に, q関数から生成するギブス測度の密度関数を明示的に計算できるか否かに応じて, 基礎となるrl問題を解決するための異なるアクター-批判アルゴリズムを考案する理論を適用する。
我々のアルゴリズムの1つは、よく知られたQ-ラーニングアルゴリズムSARSAを解釈し、もう1つは、Jia と Zhou (2022b) で提案されたポリシー勾配に基づく連続時間アルゴリズムを復元する。
最後に,Jia と Zhou (2022b) の PG に基づくアルゴリズムと,従来のQ-ラーニングアルゴリズムを時間差で比較するシミュレーション実験を行った。
関連論文リスト
- Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-07-04T12:26:31Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Continuous-time q-learning for mean-field control problems [4.3715546759412325]
我々は最近,Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,Mckean-Vlasov 制御問題に対して検討した。
2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。
弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-06-28T13:43:46Z) - Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and
Convex Q-Learning in Continuous Time [1.4050836886292872]
本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。
i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。
離散時間設定から最近の結果の非自明な拡張によって制約領域の有界性を特徴づける。
論文 参考訳(メタデータ) (2022-10-14T21:55:57Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Convex Q-Learning, Part 1: Deterministic Optimal Control [5.685589351789462]
一般的な関数近似設定へのワトキンスアルゴリズムの拡張が困難であることはよく知られている。
論文は、線形プログラミングアプローチによる最適制御に関する簡単な調査から始まり、特にパラメータ化の過度化が強化学習の応用に繋がる。
凸 Q-ラーニングはベルマン方程式を近似する凸プログラムを解くが、DQNの理論は関数近似のワトキンスアルゴリズムよりも強いものではない。
論文 参考訳(メタデータ) (2020-08-08T17:17:42Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。