論文の概要: Convex Q-Learning, Part 1: Deterministic Optimal Control
- arxiv url: http://arxiv.org/abs/2008.03559v1
- Date: Sat, 8 Aug 2020 17:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:23:36.258081
- Title: Convex Q-Learning, Part 1: Deterministic Optimal Control
- Title(参考訳): Convex Q-Learning, Part 1:決定論的最適制御
- Authors: Prashant G. Mehta and Sean P. Meyn
- Abstract要約: 一般的な関数近似設定へのワトキンスアルゴリズムの拡張が困難であることはよく知られている。
論文は、線形プログラミングアプローチによる最適制御に関する簡単な調査から始まり、特にパラメータ化の過度化が強化学習の応用に繋がる。
凸 Q-ラーニングはベルマン方程式を近似する凸プログラムを解くが、DQNの理論は関数近似のワトキンスアルゴリズムよりも強いものではない。
- 参考スコア(独自算出の注目度): 5.685589351789462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that the extension of Watkins' algorithm to general function
approximation settings is challenging: does the projected Bellman equation have
a solution? If so, is the solution useful in the sense of generating a good
policy? And, if the preceding questions are answered in the affirmative, is the
algorithm consistent? These questions are unanswered even in the special case
of Q-function approximations that are linear in the parameter. The challenge
seems paradoxical, given the long history of convex analytic approaches to
dynamic programming. The paper begins with a brief survey of linear programming
approaches to optimal control, leading to a particular over parameterization
that lends itself to applications in reinforcement learning. The main
conclusions are summarized as follows:
(i) The new class of convex Q-learning algorithms is introduced based on the
convex relaxation of the Bellman equation. Convergence is established under
general conditions, including a linear function approximation for the
Q-function.
(ii) A batch implementation appears similar to the famed DQN algorithm (one
engine behind AlphaZero). It is shown that in fact the algorithms are very
different: while convex Q-learning solves a convex program that approximates
the Bellman equation, theory for DQN is no stronger than for Watkins' algorithm
with function approximation: (a) it is shown that both seek solutions to the
same fixed point equation, and (b) the ODE approximations for the two
algorithms coincide, and little is known about the stability of this ODE.
These results are obtained for deterministic nonlinear systems with total
cost criterion. Many extensions are proposed, including kernel implementation,
and extension to MDP models.
- Abstract(参考訳): ワトキンスアルゴリズムの一般関数近似設定への拡張は困難であることはよく知られている: 投影されたベルマン方程式は解を持つか?
もしそうなら、解決策は良い方針を生み出すという意味で有用だろうか?
そして、もし前回の質問が肯定的に答えられた場合、アルゴリズムは一貫性があるのだろうか?
これらの疑問は、パラメータに線型なQ-函数近似の特別な場合においても答えられない。
動的プログラミングに対する凸解析的アプローチの長い歴史を考えると、この課題はパラドックス的に見える。
この論文は、最適制御に対する線形プログラミングのアプローチに関する簡単な調査から始まり、強化学習の応用に有利なパラメータ化へと導かれる。
主な結論は以下の通りである。
i)ベルマン方程式の凸緩和に基づいて,新しい凸Q-ラーニングアルゴリズムを導入した。
Q-函数に対する線形関数近似を含む一般条件下で収束が確立される。
(ii) バッチ実装は有名なDQNアルゴリズム(AlphaZeroのエンジンの一つ)に似ている。
凸 Q-ラーニングはベルマン方程式を近似する凸プログラムを解くが、DQNの理論は関数近似のワトキンスアルゴリズムよりも強いものではない。
(a) どちらも同じ不動点方程式の解を求めることが示され、
b) 2つのアルゴリズムのODE近似は一致しており、このODEの安定性についてはほとんど分かっていない。
これらの結果は、総コスト基準を持つ決定論的非線形システムに対して得られる。
カーネル実装やMDPモデルの拡張など、多くの拡張が提案されている。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
論文 参考訳(メタデータ) (2023-09-10T18:24:43Z) - Gradient-free optimization of highly smooth functions: improved analysis
and a new algorithm [87.22224691317766]
この研究は、目的関数が極めて滑らかであるという仮定の下で、ゼロ次ノイズオラクル情報による問題を研究する。
ゼロオーダー射影勾配勾配アルゴリズムを2種類検討する。
論文 参考訳(メタデータ) (2023-06-03T17:05:13Z) - Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.63469275932989]
制約付き非線形最適化問題のオンライン統計的推測を考察する。
これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文 参考訳(メタデータ) (2022-05-27T00:34:03Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Deep Learning for Constrained Utility Maximisation [0.0]
本稿では,ディープラーニングを用いた制御問題を解くための2つのアルゴリズムを提案する。
最初のアルゴリズムはハミルトン・ヤコビ・ベルマン方程式を通じてマルコフ問題を解く。
2つ目は、非マルコフ的問題を解くために双対法の全力を利用する。
論文 参考訳(メタデータ) (2020-08-26T18:40:57Z) - Hardness of Random Optimization Problems for Boolean Circuits,
Low-Degree Polynomials, and Langevin Dynamics [78.46689176407936]
アルゴリズムの族は高い確率でほぼ最適な解を生成できないことを示す。
ブール回路の場合、回路複雑性理論で知られている最先端境界を改善する。
論文 参考訳(メタデータ) (2020-04-25T05:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。