論文の概要: Solving optimal stopping problems with Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2101.09682v1
- Date: Sun, 24 Jan 2021 10:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:11:34.760573
- Title: Solving optimal stopping problems with Deep Q-Learning
- Title(参考訳): 深層Q-Learningによる最適停止問題の解法
- Authors: John Ery and Loris Michel
- Abstract要約: オプション型製品の最適な運動戦略をモデル化する強化学習(RL)手法を提案する。
基本関数の仕様を必要としない深層ニューラルネットワークを用いてQ関数を近似する。
我々は、トレーニングされたニューラルネットワークから得られるオプション価格と、停止問題の2つの定式化から得られる上限を低くする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a reinforcement learning (RL) approach to model optimal exercise
strategies for option-type products. We pursue the RL avenue in order to learn
the optimal action-value function of the underlying stopping problem. In
addition to retrieving the optimal Q-function at any time step, one can also
price the contract at inception. We first discuss the standard setting with one
exercise right, and later extend this framework to the case of multiple
stopping opportunities in the presence of constraints. We propose to
approximate the Q-function with a deep neural network, which does not require
the specification of basis functions as in the least-squares Monte Carlo
framework and is scalable to higher dimensions. We derive a lower bound on the
option price obtained from the trained neural network and an upper bound from
the dual formulation of the stopping problem, which can also be expressed in
terms of the Q-function. Our methodology is illustrated with examples covering
the pricing of swing options.
- Abstract(参考訳): オプション型製品の最適な運動戦略をモデル化する強化学習(RL)手法を提案する。
本稿では,根底にある停止問題の最適作用値関数を学習するために,RL経路を追求する。
任意のステップで最適なQ-関数を取得することに加えて、開始時に契約価格を設定できる。
まず1つのエクササイズで標準設定について議論し、その後、制約がある場合の複数の停止機会にこのフレームワークを拡張します。
我々は,最小二乗モンテカルロフレームワークのような基底関数の仕様を必要とせず,高次元にスケーラブルなQ関数とディープニューラルネットワークを近似することを提案する。
我々は、トレーニングされたニューラルネットワークから得られるオプション価格と、停止問題の双対な定式化から得られる上限を低くし、Q-関数の観点からも表現できる。
提案手法は,スウィングオプションの価格を例に示す。
関連論文リスト
- Refined Value-Based Offline RL under Realizability and Partial Coverage [104.01877332107817]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Graph neural network initialisation of quantum approximate optimisation [2.064612766965483]
量子近似最適化アルゴリズム (QAOA) をMax-Cut問題の解法に適用する。
本稿では,QAOAにおける2つの問題,初期パラメータの選択方法,そして最適解を求めるためにパラメータをトレーニングする方法について述べる。
論文 参考訳(メタデータ) (2021-11-04T17:19:08Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Unsupervised Deep Learning for Optimizing Wireless Systems with
Instantaneous and Statistic Constraints [29.823814915538463]
我々は、教師なしのディープラーニングを用いて、瞬時的制約と統計的制約の両方で、双方の問題を解決する統一的な枠組みを確立する。
教師なし学習は、最適政策の違反確率と近似精度の観点から教師あり学習より優れていることを示す。
論文 参考訳(メタデータ) (2020-05-30T13:37:14Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。