論文の概要: Convex Q Learning in a Stochastic Environment: Extended Version
- arxiv url: http://arxiv.org/abs/2309.05105v1
- Date: Sun, 10 Sep 2023 18:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 14:38:22.476148
- Title: Convex Q Learning in a Stochastic Environment: Extended Version
- Title(参考訳): 確率環境における凸Q学習の拡張版
- Authors: Fan Lu and Sean Meyn
- Abstract要約: 本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
- 参考スコア(独自算出の注目度): 1.680268810119084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper introduces the first formulation of convex Q-learning for Markov
decision processes with function approximation. The algorithms and theory rest
on a relaxation of a dual of Manne's celebrated linear programming
characterization of optimal control. The main contributions firstly concern
properties of the relaxation, described as a deterministic convex program: we
identify conditions for a bounded solution, and a significant relationship
between the solution to the new convex program, and the solution to standard
Q-learning. The second set of contributions concern algorithm design and
analysis: (i) A direct model-free method for approximating the convex program
for Q-learning shares properties with its ideal. In particular, a bounded
solution is ensured subject to a simple property of the basis functions; (ii)
The proposed algorithms are convergent and new techniques are introduced to
obtain the rate of convergence in a mean-square sense; (iii) The approach can
be generalized to a range of performance criteria, and it is found that
variance can be reduced by considering ``relative'' dynamic programming
equations; (iv) The theory is illustrated with an application to a classical
inventory control problem.
- Abstract(参考訳): 本稿では,マルコフ決定過程に対する凸Q-ラーニングの最初の定式化について述べる。
アルゴリズムと理論は、マンネの有名な線形プログラミングの最適制御の特徴付けの双対の緩和にかかっている。
本研究の主な貢献は、まず、緩和の特質を、決定論的凸プログラム(Deterministic convex program)として記述し、境界解の条件を特定し、新しい凸プログラムの解と標準Q-ラーニングの解との有意な関係を明らかにすることである。
第2の貢献はアルゴリズムの設計と分析に関するものです。
i)Q学習のための凸プログラムを近似する直接モデルフリー手法は,その理想とプロパティを共有する。
特に、有界解は基底関数の単純性質に従属することが保証される。
2) 提案アルゴリズムは収束し, 平均二乗感覚における収束率を得るための新しい手法が導入された。
(iii) この手法は, 性能基準の範囲に一般化することができ, 「相対」動的プログラミング方程式を考慮すれば, ばらつきを低減できることがわかった。
(iv)この理論は、古典的在庫管理問題への応用によって示される。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Comparison of Single- and Multi- Objective Optimization Quality for
Evolutionary Equation Discovery [77.34726150561087]
進化的微分方程式の発見は、より優先順位の低い方程式を得るための道具であることが証明された。
提案した比較手法は、バーガーズ方程式、波動方程式、コルテヴェーグ・ド・ブリーズ方程式といった古典的なモデル例で示される。
論文 参考訳(メタデータ) (2023-06-29T15:37:19Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and
Convex Q-Learning in Continuous Time [1.4050836886292872]
本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。
i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。
離散時間設定から最近の結果の非自明な拡張によって制約領域の有界性を特徴づける。
論文 参考訳(メタデータ) (2022-10-14T21:55:57Z) - Parabolic Relaxation for Quadratically-constrained Quadratic Programming
-- Part II: Theoretical & Computational Results [6.355764634492975]
我々は,2次制約付き二次プログラムに対する凸緩和と,ほぼ実現可能な解に対するペナル化放物緩和を導入する。
我々は, ある条件を満たす逐次点対点解から, ペナル化放物緩和収束は, カルーシュ・クーン最適正則性問題を満たすことを示した。
論文 参考訳(メタデータ) (2022-08-07T02:58:04Z) - A conditional gradient homotopy method with applications to Semidefinite
Programming [1.6369790794838281]
ホモトピーに基づく条件勾配法による凸最適化問題の解法。
我々の理論的複雑さは、最先端のSDPに直面すると競合し、安価なプロジェクションフリーの決定的な利点がある。
論文 参考訳(メタデータ) (2022-07-07T05:48:27Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Convex Q-Learning, Part 1: Deterministic Optimal Control [5.685589351789462]
一般的な関数近似設定へのワトキンスアルゴリズムの拡張が困難であることはよく知られている。
論文は、線形プログラミングアプローチによる最適制御に関する簡単な調査から始まり、特にパラメータ化の過度化が強化学習の応用に繋がる。
凸 Q-ラーニングはベルマン方程式を近似する凸プログラムを解くが、DQNの理論は関数近似のワトキンスアルゴリズムよりも強いものではない。
論文 参考訳(メタデータ) (2020-08-08T17:17:42Z) - Conditional gradient methods for stochastically constrained convex
minimization [54.53786593679331]
構造凸最適化問題に対する条件勾配に基づく2つの新しい解法を提案する。
私たちのフレームワークの最も重要な特徴は、各イテレーションで制約のサブセットだけが処理されることです。
提案アルゴリズムは, 条件勾配のステップとともに, 分散の低減と平滑化に頼り, 厳密な収束保証を伴っている。
論文 参考訳(メタデータ) (2020-07-07T21:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。