論文の概要: Reinforced optimal control
- arxiv url: http://arxiv.org/abs/2011.12382v2
- Date: Fri, 25 Mar 2022 09:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:02:45.884919
- Title: Reinforced optimal control
- Title(参考訳): 強化最適制御
- Authors: Christian Bayer, Denis Belomestny, Paul Hager, Paolo Pigato, John
Schoenmakers, Vladimir Spokoiny
- Abstract要約: 最小二乗モンテカルロ法は制御問題を解くための一般的な数値近似法である。
基本関数の選択は、その方法の正確性に不可欠である。
提案手法を制御問題の一般的なクラスに拡張し,効率を向上する。
- 参考スコア(独自算出の注目度): 0.19573380763700707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Least squares Monte Carlo methods are a popular numerical approximation
method for solving stochastic control problems. Based on dynamic programming,
their key feature is the approximation of the conditional expectation of future
rewards by linear least squares regression. Hence, the choice of basis
functions is crucial for the accuracy of the method. Earlier work by some of us
[Belomestny, Schoenmakers, Spokoiny, Zharkynbay. Commun.~Math.~Sci.,
18(1):109-121, 2020](arXiv:1808.02341) proposes to reinforce the basis
functions in the case of optimal stopping problems by already computed value
functions for later times, thereby considerably improving the accuracy with
limited additional computational cost. We extend the reinforced regression
method to a general class of stochastic control problems, while considerably
improving the method's efficiency, as demonstrated by substantial numerical
examples as well as theoretical analysis.
- Abstract(参考訳): 最小二乗モンテカルロ法は確率制御問題を解くための一般的な数値近似法である。
動的プログラミングに基づいて、その重要な特徴は、線形最小二乗回帰による将来の報酬の条件付き期待の近似である。
したがって、基底関数の選択は、その方法の精度に不可欠である。
初期の研究(belomestny, schoenmakers, spokoiny, zharkynbay. commun.~math.~sci., 18(1):109-121, 2020](arxiv:1808.02341)では、既に計算済みの値関数によって最適停止問題の場合の基礎関数の強化を提案し、計算コストを限定して精度を大幅に向上させる。
本研究では, 統計的制御問題の一般的なクラスに回帰回帰法を拡張し, 実例や理論的解析によって示されるように, 手法の効率を著しく改善する。
関連論文リスト
- On improving generalization in a class of learning problems with the method of small parameters for weakly-controlled optimal gradient systems [0.0]
制御入力が非線形項の係数としてシステム力学に入力される弱制御勾配系の変分問題を考える。
摂動理論を用いて、最適化問題の列を解くことができる結果を提供する。
また、そのような近似最適解に対する収束率を推定する。
論文 参考訳(メタデータ) (2024-12-11T20:50:29Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - The Stochastic Proximal Distance Algorithm [5.3315823983402755]
本稿では,所望の制約付き推定問題をペナルティパラメータとして回復する反復最適化手法のクラスを提案し,解析する。
我々は、最近の理論装置を拡張して有限誤差境界を確立し、収束率の完全な評価を行う。
また,本手法が一般的な学習課題のバッチバージョンより優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T22:07:28Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Interior Point Solving for LP-based prediction+optimisation [14.028706088791473]
線形プログラミングのインテリア・ポイント・ソルバで広く使われているような、より原理化された対数障壁項の使用について検討する。
我々の手法は、Willerらの最先端QPTL(Quadratic Programming Task Los)とElmachtoubとGrigasのSPOアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-10-26T23:05:21Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Robust priors for regularized regression [12.945710636153537]
尾根回帰のような罰則化された回帰アプローチは0に向かって縮小するが、0重みは通常は意味のある先行ではない。
人間が使用する単純で堅牢な決定にインスパイアされた私たちは、ペナル化された回帰モデルのための非ゼロの事前計算を構築しました。
頑丈な先行モデルでは、最悪のパフォーマンスに優れていた。
論文 参考訳(メタデータ) (2020-10-06T10:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。