論文の概要: Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls
- arxiv url: http://arxiv.org/abs/2010.14087v1
- Date: Tue, 27 Oct 2020 06:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:17:17.668887
- Title: Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls
- Title(参考訳): リプシッツ連続制御を用いた決定論的連続時間システムのハミルトン・ヤコビディープラーニング
- Authors: Jeongho Kim, Jaeuk Shin, Insoon Yang
- Abstract要約: リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 2.922007656878633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Q-learning algorithms for continuous-time
deterministic optimal control problems with Lipschitz continuous controls. Our
method is based on a new class of Hamilton-Jacobi-Bellman (HJB) equations
derived from applying the dynamic programming principle to continuous-time
Q-functions. A novel semi-discrete version of the HJB equation is proposed to
design a Q-learning algorithm that uses data collected in discrete time without
discretizing or approximating the system dynamics. We identify the condition
under which the Q-function estimated by this algorithm converges to the optimal
Q-function. For practical implementation, we propose the Hamilton-Jacobi DQN,
which extends the idea of deep Q-networks (DQN) to our continuous control
setting. This approach does not require actor networks or numerical solutions
to optimization problems for greedy actions since the HJB equation provides a
simple characterization of optimal controls via ordinary differential
equations. We empirically demonstrate the performance of our method through
benchmark tasks and high-dimensional linear-quadratic problems.
- Abstract(参考訳): 本稿では,リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するq学習アルゴリズムを提案する。
本手法は,連続時間Q-関数への動的プログラミング原理の適用から導かれるハミルトン・ヤコビ・ベルマン方程式の新しいクラスに基づく。
hjb方程式の新しい半離散バージョンは、システムのダイナミクスを識別したり近似したりすることなく離散時間に収集されたデータを使用するq学習アルゴリズムを設計するために提案されている。
このアルゴリズムにより推定されたQ関数が最適Q関数に収束する条件を同定する。
本稿では,DQN(Deep Q-networks)の概念を連続制御環境に拡張したHamilton-Jacobi DQNを提案する。
このアプローチでは、HJB方程式は通常の微分方程式による最適制御の簡易な特徴づけを提供するため、グリーディ行動に対する最適化問題に対してアクターネットワークや数値解を必要としない。
ベンチマークタスクと高次元線形量子問題を用いて,提案手法の性能を実証的に実証する。
関連論文リスト
- Hamilton-Jacobi Based Policy-Iteration via Deep Operator Learning [9.950128864603599]
我々は、DeepONetと最近開発されたポリシースキームを組み込んで、最適制御問題を数値的に解く。
ニューラルネットワークをトレーニングすると、最適制御問題とHJB方程式の解を素早く推測できる。
論文 参考訳(メタデータ) (2024-06-16T12:53:17Z) - Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [4.36117236405564]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and
Convex Q-Learning in Continuous Time [1.4050836886292872]
本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。
i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。
離散時間設定から最近の結果の非自明な拡張によって制約領域の有界性を特徴づける。
論文 参考訳(メタデータ) (2022-10-14T21:55:57Z) - q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Q-Match: Iterative Shape Matching via Quantum Annealing [64.74942589569596]
形状対応を見つけることは、NP-hard quadratic assignment problem (QAP)として定式化できる。
本稿では,アルファ拡大アルゴリズムに触発されたQAPの反復量子法Q-Matchを提案する。
Q-Match は、実世界の問題にスケールできるような長文対応のサブセットにおいて、反復的に形状マッチング問題に適用できる。
論文 参考訳(メタデータ) (2021-05-06T17:59:38Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Convex Q-Learning, Part 1: Deterministic Optimal Control [5.685589351789462]
一般的な関数近似設定へのワトキンスアルゴリズムの拡張が困難であることはよく知られている。
論文は、線形プログラミングアプローチによる最適制御に関する簡単な調査から始まり、特にパラメータ化の過度化が強化学習の応用に繋がる。
凸 Q-ラーニングはベルマン方程式を近似する凸プログラムを解くが、DQNの理論は関数近似のワトキンスアルゴリズムよりも強いものではない。
論文 参考訳(メタデータ) (2020-08-08T17:17:42Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。